LLM2020· NeurIPS 2020· CLASSIC

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

Baevski et al. (FAIR)

把 BERT 的 masked prediction 搬到原始音频，10 分钟标注就能训出 ASR——语音 SSL 范式确立。

arXiv:2006.11477

#ssl#audio#speech#contrastive

核心贡献

01CNN feature encoder：原始 16kHz 波形 → 20ms 帧的连续表征
02Transformer context + Gumbel-softmax 离散化得到 quantized targets
03Contrastive loss + diversity loss（鼓励 codebook 充分利用）
0410 分钟 LibriSpeech labels + 大规模 unlabeled audio → WER 4.8/8.2

音频不像文本天然离散，wav2vec 2.0 用 product quantization 把连续帧编码到 codebook 上得到"伪 token"，然后做 mask + contrastive：mask 一些时段，让 context Transformer 预测被 mask 位置的量化 target（正样本），干扰项来自同序列其他位置（负样本）。一举把"BERT 怎么搬到连续信号"做成范式。

面试视角

为什么不直接预测原始波形？ 太冗余、太多噪声；量化把"内容"和"声学细节"解耦。wav2vec 2.0 vs HuBERT？ HuBERT 用 k-means 离线聚类作伪标签 → 改 cross-entropy；更稳但要多轮迭代。vs Whisper？ Whisper 是 supervised + 弱监督多任务；wav2vec 2.0 是 pure SSL。实际工业上谁赢？ 大数据时 supervised（Whisper）赢；小数据/小语种 SSL 仍占优。Speech LLM 关系？ AudioLM/VALL-E/Moshi 都基于这种"音频 → discrete token"思路。