§18.4.7
ColPali (LightOn 2024) — 用 VLM 直接做 PDF 文档检索,告别 OCR pipeline
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §18.4Qwen-VL → Qwen2-VL → Qwen2.5-VL (Alibaba 2023-2025) — 阿里开源 VLM 谱系→
- §18.4DeepSeek-VL → DeepSeek-VL2 (DeepSeek 2024) — 用 MoE 视觉塔 + 高效推理→
- §18.4InternVL → 2.5 → 3 (Shanghai AI Lab 2023-2025) — 开源 VLM 旗舰→
- §18.4Gemini 1.5 / 2.0 (Google 2024-2025) — 原生多模态 + 长上下文→
- §18.4Janus-Pro (DeepSeek 2024) — 把图像理解和生成解耦的统一多模态模型→
- §18.4VQGAN (Heidelberg 2020) — 离散 visual token 的祖师爷→