AudioLM: A Language Modeling Approach to Audio Generation
Borsos et al. (Google)
把音频当「语言」训:用 SoundStream codec 把波形离散化成 token,再用 Transformer 像 GPT 一样 next-token-predict——开启 codec+LM 范式。
arXiv:2209.03143核心贡献
- 01Semantic tokens (w2v-BERT) + Acoustic tokens (SoundStream) 双层 token 化
- 02分级生成:先 Semantic LM → 后 Acoustic LM(粗到细)
- 03无文本条件下生成连贯语音 / 钢琴音乐 / 续写音频
- 04确立「audio = sequence of discrete tokens」范式 → MusicLM / VALL-E / Moshi 都基于此
核心思想:音频 = 一串离散 token,用 LM 范式建模。
两类 token:
- Semantic tokens:从 w2v-BERT 隐层提取(粗粒度,关注"说了什么/什么旋律")
- Acoustic tokens:从 SoundStream RVQ encoder 提取(细粒度,关注"音色/相位/细节")
3 个 LM 阶段:
- Semantic LM:autoregressive 生成 semantic tokens 序列(决定内容轮廓)
- Coarse acoustic LM:semantic → 前几层 RVQ acoustic tokens(说话人 + 韵律)
- Fine acoustic LM:补完剩余 RVQ 层(高频细节)
生成:从 prompt 续写 → SoundStream decoder → waveform。
关键洞察:semantic + acoustic 分级建模解决了"连贯性 + 音色"的 trade-off——单 LM 想兼顾两者很难。
为什么要两层 token? 单层 (只 acoustic) 太细,LM 难学语义连贯;单层 (只 semantic) 又丢失音色。两层分级,semantic 管"想说什么",acoustic 管"怎么说"。和 VALL-E 区别? VALL-E 加了文本条件(TTS),AudioLM 是无条件续写。和 MusicLM 关系? MusicLM 是 AudioLM 加文本条件做 text-to-music。和 Moshi 关系? Moshi 用类似 codec+LM 但优化到实时双向对话。为什么 codec token 突然成为主流? (1) LLM scaling law 验证 next-token 范式 (2) Neural codec 2022 后重建质量达 perceptually transparent (3) 实时对话需求倒逼超紧凑表示。