§21.1.1
三种 VLM 架构对比:Dual Encoder vs Encoder-Decoder vs Multimodal LLM
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §21.1Video 比 image 难在哪?4 个核心挑战→
- §21.1Image captioning · VQA · 视觉 grounding:3 个核心视觉理解任务→
- §21.2AR vs Diffusion vs VAE:3 类生成模型选型指南→
- §21.2Text→image / text→audio / text→video / image→text 4 方向生成全链路→
- §21.4Self-Supervised Learning 总览:pretext task / 为什么不依赖人工标签?→
- §21.3Fusion 类型对比:early / late / cross-attention / LLM-based→