LLM2022· TASLP 2023· CLASSIC

AudioLM: A Language Modeling Approach to Audio Generation

Borsos et al. (Google)

把音频当「语言」训:用 SoundStream codec 把波形离散化成 token,再用 Transformer 像 GPT 一样 next-token-predict——开启 codec+LM 范式。

arXiv:2209.03143
#audio-generation#codec#language-model#speech-synthesis

核心贡献

  • 01Semantic tokens (w2v-BERT) + Acoustic tokens (SoundStream) 双层 token 化
  • 02分级生成:先 Semantic LM → 后 Acoustic LM(粗到细)
  • 03无文本条件下生成连贯语音 / 钢琴音乐 / 续写音频
  • 04确立「audio = sequence of discrete tokens」范式 → MusicLM / VALL-E / Moshi 都基于此

核心思想:音频 = 一串离散 token,用 LM 范式建模。

两类 token

  • Semantic tokens:从 w2v-BERT 隐层提取(粗粒度,关注"说了什么/什么旋律")
  • Acoustic tokens:从 SoundStream RVQ encoder 提取(细粒度,关注"音色/相位/细节")

3 个 LM 阶段

  1. Semantic LM:autoregressive 生成 semantic tokens 序列(决定内容轮廓)
  2. Coarse acoustic LM:semantic → 前几层 RVQ acoustic tokens(说话人 + 韵律)
  3. Fine acoustic LM:补完剩余 RVQ 层(高频细节)

生成:从 prompt 续写 → SoundStream decoder → waveform。

关键洞察:semantic + acoustic 分级建模解决了"连贯性 + 音色"的 trade-off——单 LM 想兼顾两者很难。

面试视角

为什么要两层 token? 单层 (只 acoustic) 太细,LM 难学语义连贯;单层 (只 semantic) 又丢失音色。两层分级,semantic 管"想说什么",acoustic 管"怎么说"。和 VALL-E 区别? VALL-E 加了文本条件(TTS),AudioLM 是无条件续写。和 MusicLM 关系? MusicLM 是 AudioLM 加文本条件做 text-to-music。和 Moshi 关系? Moshi 用类似 codec+LM 但优化到实时双向对话。为什么 codec token 突然成为主流? (1) LLM scaling law 验证 next-token 范式 (2) Neural codec 2022 后重建质量达 perceptually transparent (3) 实时对话需求倒逼超紧凑表示。

相关论文