LLM2022· CLASSIC

Whisper: Robust Speech Recognition via Large-Scale Weak Supervision

Radford et al. (OpenAI)

用 68 万小时弱监督音频 + 标准 encoder-decoder Transformer 把多语种 ASR 鲁棒性拉满——音频版 GPT 时刻。

#audio#speech#asr#multimodal

核心贡献

01Encoder-decoder Transformer + log-mel spectrogram 输入
0268 万小时网络抓取音频 + 字幕（96 种语言）
03多任务训练：ASR + 翻译 + 语种识别 + 时间戳，用 special token 切换
04Zero-shot 鲁棒：噪声/口音/各种领域 WER 接近商业系统

不再追求最干净的 supervised 数据集（LibriSpeech 这种 1K 小时级别），而是直接抓 68 万小时互联网音频+字幕"弱监督"训练。模型架构反而朴素：log-mel → 卷积下采样 → encoder Transformer；decoder 输出 BPE token。多任务通过 prompt-style special token 控制（<|en|><|transcribe|><|notimestamps|>）。

面试视角

Whisper vs wav2vec 2.0？ Whisper 是 supervised + 大规模弱标注，wav2vec 是 SSL + 小标注 fine-tune。大数据时代 Whisper 赢，小语种/低资源 SSL 仍占优。为什么 encoder-decoder 而不是 CTC？ Decoder 能用语言模型先验，复杂 prompt（多任务）也只能 seq2seq。hallucination 怎么办？ Whisper 在长沉默/纯音乐段会"编"内容；VAD 预处理 + chunk 切分 + temperature fallback。log-mel 为什么是标配？ 模拟人耳频率感知，频域稀疏紧凑；80 维 mel 是经验最优。Whisper 在 Multimodal LLM 里？ Qwen2-Audio / GPT-4o audio 都用 Whisper-style 音频编码器。