§18.3.1
MiniGPT-4 (KAUST 2023) — 用一个 linear 把 Q-Former + Vicuna 缝起来
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §18.3InstructBLIP (Salesforce 2023) — BLIP-2 + 指令微调 + instruction-aware Q-Former→
- §18.3mPLUG-Owl (Alibaba 2023) — 中文 VLM 开源先锋,模块化训练→
- §18.3LLaVA-1.5 (Microsoft 2023) — LLaVA 的关键升级,跟 BLIP-2 范式分道扬镳→
- §18.3LLaVA-NeXT (Microsoft 2024) — 动态高分辨率 + 推理数据扩张→
- §18.3Flamingo (DeepMind 2022) — frozen LLM + Perceiver Resampler + Gated Cross-Attn→
- §18.1ViT (2020 Google) — 把图像切 patch 当 token 喂 Transformer→