MLLM2023· CLASSIC

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Chu et al. (Alibaba)

把 Whisper encoder 接 Qwen LLM——一个模型搞定 ASR / 翻译 / 音频字幕 / SED / 情感识别 30+ 任务的「audio GPT-4o」开源版。

arXiv:2311.07919

#audio-llm#multitask#speech#instruction-tuning

核心贡献

01Whisper encoder + Qwen-7B LLM，两阶段训练（multitask pre-train + SFT）
028 大语音 + 7 大音频任务联合训练（ASR / translation / captioning / SED / SQA / emotion / 等）
03Task-tag prompting：用文本 tag 触发不同任务（如 <|asr|> / <|translation|>）
04Qwen-Audio-Chat：fine-tune 后支持多轮 audio QA 对话

架构：

text

 1audio waveform
 2   ↓
 3Whisper encoder (frozen → unfrozen at stage 2)
 4   ↓ Mel-spectrogram features
 5adaptor (linear projector)
 6   ↓ Qwen LLM token embeddings
 7Qwen-7B LLM ← text instruction
 8   ↓
 9text output

两阶段训练：

Multi-task pre-training：30+ 任务联合训练，task-tag prompt 区分（"<|asr|> en"、"<|translation|> en→zh"、"<|sed|>"）
Supervised fine-tuning：对话式数据 fine-tune 成 Qwen-Audio-Chat

关键设计：

Whisper encoder 选用是因为它在多语言/嘈杂环境下的鲁棒性已经验证
训练数据 100K+ 小时多任务多语言音频，包括 ASR / S2TT / SED / 音乐情感等

结果：在 13 个 audio benchmark 上 SOTA 或接近，是当时开源 audio LLM 第一梯队。

面试视角

Qwen-Audio vs Whisper？ Whisper 是"audio encoder + decoder"专门做 ASR/翻译；Qwen-Audio 是"audio encoder + LLM"，能做任意可文本描述的 audio 任务。vs Qwen2-Audio？ Qwen2-Audio 升级了 voice chat（直接语音 in/out），更接近 GPT-4o。vs SALMONN / GAMA？ SALMONN 用 Whisper + BEATs 双 encoder 兼顾语音和音乐；GAMA 强调音乐 + audio reasoning。vs Moshi / GPT-4o？ 前者是非实时"理解为主"，Moshi/GPT-4o 是实时"对话+生成"。工业地位？ 开源 audio LLM 最常用的 baseline 之一。为什么不直接用 codec？ Qwen-Audio 是"audio understanding"路线（mel + 理解），不做生成；做生成才需要 codec token。