§18.1.1
ViT (2020 Google) — 把图像切 patch 当 token 喂 Transformer
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §18.1SigLIP (2023 Google) — 把 CLIP 的 softmax InfoNCE 换成 sigmoid→
- §18.1NaViT (2023 Google) — 原生分辨率训练,告别 224×224 强制 resize→
- §18.1AIM (Apple 2024) — 把 GPT 风格的 next-token prediction 搬到图像→
- §18.1InternViT (Shanghai AI Lab 2023+) — 中国开源最强视觉塔→
- §18.1SigLIP2 (2025 Google) — 多语言 + 多分辨率 + decoder loss 加成→
- §18.2ALBEF (Salesforce 2021) — Align Before Fuse,对比 + ITM + MLM 三 loss 联训→