Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
Chu et al. (Alibaba)
把 Whisper encoder 接 Qwen LLM——一个模型搞定 ASR / 翻译 / 音频字幕 / SED / 情感识别 30+ 任务的「audio GPT-4o」开源版。
arXiv:2311.07919核心贡献
- 01Whisper encoder + Qwen-7B LLM,两阶段训练(multitask pre-train + SFT)
- 028 大语音 + 7 大音频任务联合训练(ASR / translation / captioning / SED / SQA / emotion / 等)
- 03Task-tag prompting:用文本 tag 触发不同任务(如 <|asr|> / <|translation|>)
- 04Qwen-Audio-Chat:fine-tune 后支持多轮 audio QA 对话
架构:
1audio waveform2 ↓3Whisper encoder (frozen → unfrozen at stage 2)4 ↓ Mel-spectrogram features5adaptor (linear projector)6 ↓ Qwen LLM token embeddings7Qwen-7B LLM ← text instruction8 ↓9text output
两阶段训练:
- Multi-task pre-training:30+ 任务联合训练,task-tag prompt 区分("<|asr|> en"、"<|translation|> en→zh"、"<|sed|>")
- Supervised fine-tuning:对话式数据 fine-tune 成 Qwen-Audio-Chat
关键设计:
- Whisper encoder 选用是因为它在多语言/嘈杂环境下的鲁棒性已经验证
- 训练数据 100K+ 小时多任务多语言音频,包括 ASR / S2TT / SED / 音乐情感等
结果:在 13 个 audio benchmark 上 SOTA 或接近,是当时开源 audio LLM 第一梯队。
Qwen-Audio vs Whisper? Whisper 是"audio encoder + decoder"专门做 ASR/翻译;Qwen-Audio 是"audio encoder + LLM",能做任意可文本描述的 audio 任务。vs Qwen2-Audio? Qwen2-Audio 升级了 voice chat(直接语音 in/out),更接近 GPT-4o。vs SALMONN / GAMA? SALMONN 用 Whisper + BEATs 双 encoder 兼顾语音和音乐;GAMA 强调音乐 + audio reasoning。vs Moshi / GPT-4o? 前者是非实时"理解为主",Moshi/GPT-4o 是实时"对话+生成"。工业地位? 开源 audio LLM 最常用的 baseline 之一。为什么不直接用 codec? Qwen-Audio 是"audio understanding"路线(mel + 理解),不做生成;做生成才需要 codec token。