§21.3.1
Fusion 类型对比:early / late / cross-attention / LLM-based
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §21.3Modality imbalance / missing modality / modality conflict:3 大多模态痛点→
- §21.1三种 VLM 架构对比:Dual Encoder vs Encoder-Decoder vs Multimodal LLM→
- §21.1Video 比 image 难在哪?4 个核心挑战→
- §21.1Image captioning · VQA · 视觉 grounding:3 个核心视觉理解任务→
- §21.2AR vs Diffusion vs VAE:3 类生成模型选型指南→
- §21.2Text→image / text→audio / text→video / image→text 4 方向生成全链路→