LLM2022· TASLP 2023· CLASSIC

AudioLM: A Language Modeling Approach to Audio Generation

Borsos et al. (Google)

把音频当「语言」训：用 SoundStream codec 把波形离散化成 token，再用 Transformer 像 GPT 一样 next-token-predict——开启 codec+LM 范式。

arXiv:2209.03143

#audio-generation#codec#language-model#speech-synthesis

核心贡献

01Semantic tokens (w2v-BERT) + Acoustic tokens (SoundStream) 双层 token 化
02分级生成：先 Semantic LM → 后 Acoustic LM（粗到细）
03无文本条件下生成连贯语音 / 钢琴音乐 / 续写音频
04确立「audio = sequence of discrete tokens」范式 → MusicLM / VALL-E / Moshi 都基于此

核心思想：音频 = 一串离散 token，用 LM 范式建模。

两类 token：

Semantic tokens：从 w2v-BERT 隐层提取（粗粒度，关注"说了什么/什么旋律"）
Acoustic tokens：从 SoundStream RVQ encoder 提取（细粒度，关注"音色/相位/细节"）

3 个 LM 阶段：

Semantic LM：autoregressive 生成 semantic tokens 序列（决定内容轮廓）
Coarse acoustic LM：semantic → 前几层 RVQ acoustic tokens（说话人 + 韵律）
Fine acoustic LM：补完剩余 RVQ 层（高频细节）

生成：从 prompt 续写 → SoundStream decoder → waveform。

关键洞察：semantic + acoustic 分级建模解决了"连贯性 + 音色"的 trade-off——单 LM 想兼顾两者很难。

面试视角

为什么要两层 token？ 单层 (只 acoustic) 太细，LM 难学语义连贯；单层 (只 semantic) 又丢失音色。两层分级，semantic 管"想说什么"，acoustic 管"怎么说"。和 VALL-E 区别？ VALL-E 加了文本条件（TTS），AudioLM 是无条件续写。和 MusicLM 关系？ MusicLM 是 AudioLM 加文本条件做 text-to-music。和 Moshi 关系？ Moshi 用类似 codec+LM 但优化到实时双向对话。为什么 codec token 突然成为主流？ (1) LLM scaling law 验证 next-token 范式 (2) Neural codec 2022 后重建质量达 perceptually transparent (3) 实时对话需求倒逼超紧凑表示。