§19.1.5
M-RoPE 为什么优于 2D-RoPE?如何扩展到 3D / 视频?
MLLM 多模态 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §19.1对比 Qwen2.5-VL / Qwen3-VL / InternVL3 / LLaVA-OneVision / Gemini 2.5 / GPT-5 的架构与数据差异。→
- §19.1CLIP vs SigLIP vs SigLIP2:训练目标、batch 需求、效果差异?→
- §19.1AnyRes 动态分辨率的完整实现(切分 / pooling / 拼接 / 位置编码)?→
- §19.1Linear Projector / Q-Former / Cross-Attention / Perceiver 四种连接方案如何选?→
- §19.1多模态幻觉的系统化缓解(数据 / 解码 / 对齐 / 后处理)?→
- §19.1从 0 训练一个 7B VLM(数据构成 / 阶段设计 / 算力预算)?→