Whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Radford et al. (OpenAI)
用 68 万小时弱监督音频 + 标准 encoder-decoder Transformer 把多语种 ASR 鲁棒性拉满——音频版 GPT 时刻。
arXiv:2212.04356核心贡献
- 01Encoder-decoder Transformer + log-mel spectrogram 输入
- 0268 万小时网络抓取音频 + 字幕(96 种语言)
- 03多任务训练:ASR + 翻译 + 语种识别 + 时间戳,用 special token 切换
- 04Zero-shot 鲁棒:噪声/口音/各种领域 WER 接近商业系统
不再追求最干净的 supervised 数据集(LibriSpeech 这种 1K 小时级别),而是直接抓 68 万小时互联网音频+字幕"弱监督"训练。模型架构反而朴素:log-mel → 卷积下采样 → encoder Transformer;decoder 输出 BPE token。多任务通过 prompt-style special token 控制(<|en|><|transcribe|><|notimestamps|>)。
Whisper vs wav2vec 2.0? Whisper 是 supervised + 大规模弱标注,wav2vec 是 SSL + 小标注 fine-tune。大数据时代 Whisper 赢,小语种/低资源 SSL 仍占优。为什么 encoder-decoder 而不是 CTC? Decoder 能用语言模型先验,复杂 prompt(多任务)也只能 seq2seq。hallucination 怎么办? Whisper 在长沉默/纯音乐段会"编"内容;VAD 预处理 + chunk 切分 + temperature fallback。log-mel 为什么是标配? 模拟人耳频率感知,频域稀疏紧凑;80 维 mel 是经验最优。Whisper 在 Multimodal LLM 里? Qwen2-Audio / GPT-4o audio 都用 Whisper-style 音频编码器。