MLLM2021· ICML 2021· CLASSIC

CLIP: Learning Transferable Visual Representations

Radford et al.

4 亿图文对 + 对比学习——零样本图像分类能和监督训练的 ResNet 匹敌。

#multimodal#contrastive#vision-language#foundational

核心贡献

text

 1Image → [ViT/ResNet] → image_emb
 2Text  → [Transformer] → text_emb
 3→ cosine_sim(image_emb, text_emb)

两个 encoder 独立；训练时共享 temperature τ 的 softmax。

一个 batch 的 N 对 (image, text) 构成 N×N 相似度矩阵。对角线是正样本，其他都是负样本：

L = -\frac{1}{2N}\sum_i \left[ \log \frac{e^{s_{ii}/\tau}}{\sum_j e^{s_{ij}/\tau}} + \log \frac{e^{s_{ii}/\tau}}{\sum_j e^{s_{ji}/\tau}} \right]

前一项：每张图要匹配到正确文本；后一项：每段文本要匹配到正确图。两个方向对称。

训练完不做下游微调。分类任务：

面试视角

"对比学习为什么 work？" 信号来自"什么应该相似"和"什么不应该相似"——比纯监督信号丰富。本质是在学一个语义对齐的联合向量空间。

"为什么 batch size 对 CLIP 这么重要？" 对比学习每个正样本需要大量负样本。batch=1024 比 batch=256 效果显著好。这也是 CLIP 训练基础设施要求高的原因。

"CLIP 的局限？"

"CLIP vs BLIP vs ALIGN？"

"CLIP 在 VLM 里扮演什么角色？" CLIP 的 vision encoder 被几乎所有现代 VLM 用作视觉主干（LLaVA、Qwen-VL、InternVL 都用）。CLIP-ViT-L/14 是事实标准选择。

"为什么 LLaVA 不用纯 ViT 而用 CLIP-ViT？" CLIP-ViT 已经和语言对齐，和 LLM 的表征空间更接近，仅需一层 projection 就能用。纯 ViT 要从头对齐。