MLLM2023· CLASSIC

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Chu et al. (Alibaba)

把 Whisper encoder 接 Qwen LLM——一个模型搞定 ASR / 翻译 / 音频字幕 / SED / 情感识别 30+ 任务的「audio GPT-4o」开源版。

arXiv:2311.07919
#audio-llm#multitask#speech#instruction-tuning

核心贡献

  • 01Whisper encoder + Qwen-7B LLM,两阶段训练(multitask pre-train + SFT)
  • 028 大语音 + 7 大音频任务联合训练(ASR / translation / captioning / SED / SQA / emotion / 等)
  • 03Task-tag prompting:用文本 tag 触发不同任务(如 <|asr|> / <|translation|>)
  • 04Qwen-Audio-Chat:fine-tune 后支持多轮 audio QA 对话

架构

text
1audio waveform
2
3Whisper encoder (frozen → unfrozen at stage 2)
4 ↓ Mel-spectrogram features
5adaptor (linear projector)
6 ↓ Qwen LLM token embeddings
7Qwen-7B LLM ← text instruction
8
9text output

两阶段训练

  1. Multi-task pre-training:30+ 任务联合训练,task-tag prompt 区分("<|asr|> en"、"<|translation|> en→zh"、"<|sed|>")
  2. Supervised fine-tuning:对话式数据 fine-tune 成 Qwen-Audio-Chat

关键设计

  • Whisper encoder 选用是因为它在多语言/嘈杂环境下的鲁棒性已经验证
  • 训练数据 100K+ 小时多任务多语言音频,包括 ASR / S2TT / SED / 音乐情感等

结果:在 13 个 audio benchmark 上 SOTA 或接近,是当时开源 audio LLM 第一梯队。

面试视角

Qwen-Audio vs Whisper? Whisper 是"audio encoder + decoder"专门做 ASR/翻译;Qwen-Audio 是"audio encoder + LLM",能做任意可文本描述的 audio 任务。vs Qwen2-Audio? Qwen2-Audio 升级了 voice chat(直接语音 in/out),更接近 GPT-4o。vs SALMONN / GAMA? SALMONN 用 Whisper + BEATs 双 encoder 兼顾语音和音乐;GAMA 强调音乐 + audio reasoning。vs Moshi / GPT-4o? 前者是非实时"理解为主",Moshi/GPT-4o 是实时"对话+生成"。工业地位? 开源 audio LLM 最常用的 baseline 之一。为什么不直接用 codec? Qwen-Audio 是"audio understanding"路线(mel + 理解),不做生成;做生成才需要 codec token。

相关论文