MusicLM: Generating Music From Text
Agostinelli et al. (Google)
AudioLM 加文本条件 = text-to-music。MuLan (text-audio CLIP) 做对齐 + AudioLM 做生成,能写出 5 分钟连贯音乐。
arXiv:2301.11325核心贡献
- 01MuLan:text + audio 双塔 contrastive 模型(CLIP for music),提供文本对齐
- 02复用 AudioLM 的 semantic + acoustic 双层 token 架构
- 03MusicCaps 数据集(5,521 标注音乐片段)作为新评测基准
- 04支持 melody conditioning(哼一段 + 文本描述风格 → 编曲)
MusicLM = AudioLM + MuLan
MuLan(前置):text encoder + audio encoder + contrastive loss = "CLIP for music"。把文本和音频投到同一 embedding 空间。
生成流程:
- 文本 prompt("jazz piano, melancholy, slow tempo")→ MuLan text encoder → MuLan token
- MuLan token → AudioLM semantic stage → semantic tokens(生成"音乐内容")
- semantic tokens → AudioLM acoustic stage → SoundStream tokens
- SoundStream decoder → 24kHz waveform
Melody conditioning:用户哼一段,模型既参考哼唱的旋律又遵循文本风格。
关键工程点:MuLan 训练数据来自 YouTube 自动配对的 text-audio pairs(百万级),无需人工标注。
MusicLM vs Stable Audio / Suno V3? MusicLM (2023) 是 codec+LM 路线;Stable Audio 是 diffusion 路线(在 latent 上跑 diffusion);Suno 商业产品猜测混合。和 AudioLM 区别? 加文本条件 + 加 MuLan 对齐模块。为什么 Google 不开源? 版权担忧(生成可能复刻训练音乐)→ 只放论文不放模型。评测难点? 音乐质量主观性强,MusicCaps 用人工评测 + FAD(Fréchet Audio Distance)双指标。工业现状? 2024-2025 开源界 MusicGen (Meta) 是最强可用替代,商业 Suno / Udio 主导市场。