§18.2.1
ALBEF (Salesforce 2021) — Align Before Fuse,对比 + ITM + MLM 三 loss 联训
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §18.2VLMo (Microsoft 2021) — Mixture-of-Modality-Experts,单模型多任务→
- §18.2BLIP (Salesforce 2022) — Bootstrapping caption + multi-task 训练→
- §18.2CoCa (Google 2022) — Contrastive + Captioning 双 loss 一个模型→
- §18.2BEiT-v3 (Microsoft 2023) — 把图也当成「外语」,统一图文 mask 建模→
- §18.1ViT (2020 Google) — 把图像切 patch 当 token 喂 Transformer→
- §18.1SigLIP (2023 Google) — 把 CLIP 的 softmax InfoNCE 换成 sigmoid→