MLLM2023· NeurIPS 2023· CLASSIC

LLaVA: Visual Instruction Tuning

Liu et al.

CLIP-ViT + LLaMA + 一个 linear projection——简单但有效的开源 VLM 基线。

#vlm#multimodal#instruction-tuning

核心贡献

text

 1Image → [CLIP-ViT-L/14] → [Linear Projection] → image_tokens
 2Text  → [Tokenizer]       → text_tokens
 3→ [LLaMA] → Answer

image_tokens 和 text_tokens 拼在一起，作为 LLaMA 的输入。LLaMA 看来它们是同一种 token，只是前几个是"图像语义 token"。

CLIP-ViT 输出维度 1024；LLaMA 词向量维度 4096。中间一层 W ∈ R^(1024×4096)。

论文关键贡献之一——用 GPT-4 生成多模态指令数据：

阶段 1（Pre-training）：

阶段 2（Visual Instruction Tuning）：

对比 BLIP-2 的 Q-Former（复杂，需要 pretrain）：LLaVA 的 Linear 投影几乎没参数，但凭借

就能达到 SOTA 级多模态能力。

面试视角

"LLaVA 的核心简化是什么？" 把所有复杂性塞进"大 LLM + 强 vision encoder + 简单桥接"的设计——而不是像 Flamingo 那样用复杂的 cross-attention 模块。

"为什么只用 Linear 就够了？" CLIP-ViT 已经学会了图像的语义向量——这些向量已经在某种"语言对齐"的空间里。LLM 的词向量空间也是语义向量。两者都是语义向量，差一个线性变换合理。

"两阶段训练为什么？" 避免破坏 LLM 预训练能力。阶段 1 只训 projection，让视觉 token 安全落在 LLM 理解的空间；阶段 2 小心地微调整个 LLM（视觉相关能力）。

"LLaVA 和 Flamingo 的关键差异？"

"LLaVA 的扩展方向？"

"面试常被追问：怎么训练一个 VLM？" 答案框架：