LLM2020· NeurIPS 2020· CLASSIC

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

Baevski et al. (FAIR)

把 BERT 的 masked prediction 搬到原始音频,10 分钟标注就能训出 ASR——语音 SSL 范式确立。

arXiv:2006.11477
#ssl#audio#speech#contrastive

核心贡献

  • 01CNN feature encoder:原始 16kHz 波形 → 20ms 帧的连续表征
  • 02Transformer context + Gumbel-softmax 离散化得到 quantized targets
  • 03Contrastive loss + diversity loss(鼓励 codebook 充分利用)
  • 0410 分钟 LibriSpeech labels + 大规模 unlabeled audio → WER 4.8/8.2

音频不像文本天然离散,wav2vec 2.0 用 product quantization 把连续帧编码到 codebook 上得到"伪 token",然后做 mask + contrastive:mask 一些时段,让 context Transformer 预测被 mask 位置的量化 target(正样本),干扰项来自同序列其他位置(负样本)。一举把"BERT 怎么搬到连续信号"做成范式。

面试视角

为什么不直接预测原始波形? 太冗余、太多噪声;量化把"内容"和"声学细节"解耦。wav2vec 2.0 vs HuBERT? HuBERT 用 k-means 离线聚类作伪标签 → 改 cross-entropy;更稳但要多轮迭代。vs Whisper? Whisper 是 supervised + 弱监督多任务;wav2vec 2.0 是 pure SSL。实际工业上谁赢? 大数据时 supervised(Whisper)赢;小数据/小语种 SSL 仍占优。Speech LLM 关系? AudioLM/VALL-E/Moshi 都基于这种"音频 → discrete token"思路。

相关论文