LLM2023· CLASSIC

MusicLM: Generating Music From Text

Agostinelli et al. (Google)

AudioLM 加文本条件 = text-to-music。MuLan (text-audio CLIP) 做对齐 + AudioLM 做生成，能写出 5 分钟连贯音乐。

arXiv:2301.11325

#audio-generation#music#text-to-audio#codec

核心贡献

01MuLan：text + audio 双塔 contrastive 模型（CLIP for music），提供文本对齐
02复用 AudioLM 的 semantic + acoustic 双层 token 架构
03MusicCaps 数据集（5,521 标注音乐片段）作为新评测基准
04支持 melody conditioning（哼一段 + 文本描述风格 → 编曲）

MusicLM = AudioLM + MuLan

MuLan（前置）：text encoder + audio encoder + contrastive loss = "CLIP for music"。把文本和音频投到同一 embedding 空间。

生成流程：

文本 prompt（"jazz piano, melancholy, slow tempo"）→ MuLan text encoder → MuLan token
MuLan token → AudioLM semantic stage → semantic tokens（生成"音乐内容"）
semantic tokens → AudioLM acoustic stage → SoundStream tokens
SoundStream decoder → 24kHz waveform

Melody conditioning：用户哼一段，模型既参考哼唱的旋律又遵循文本风格。

关键工程点：MuLan 训练数据来自 YouTube 自动配对的 text-audio pairs（百万级），无需人工标注。

面试视角

MusicLM vs Stable Audio / Suno V3？ MusicLM (2023) 是 codec+LM 路线；Stable Audio 是 diffusion 路线（在 latent 上跑 diffusion）；Suno 商业产品猜测混合。和 AudioLM 区别？ 加文本条件 + 加 MuLan 对齐模块。为什么 Google 不开源？ 版权担忧（生成可能复刻训练音乐）→ 只放论文不放模型。评测难点？ 音乐质量主观性强，MusicCaps 用人工评测 + FAD（Fréchet Audio Distance）双指标。工业现状？ 2024-2025 开源界 MusicGen (Meta) 是最强可用替代，商业 Suno / Udio 主导市场。