§18.1.24
多模态评估数据污染问题如何系统性检测与缓解?
- §18.1对比 Qwen2.5-VL / Qwen3-VL / InternVL3 / LLaVA-OneVision / Gemini 2.5 / GPT-5 的架构与数据差异。→
- §18.1CLIP vs SigLIP vs SigLIP2:训练目标、batch 需求、效果差异?→
- §18.1AnyRes 动态分辨率的完整实现(切分 / pooling / 拼接 / 位置编码)?→
- §18.1M-RoPE 为什么优于 2D-RoPE?如何扩展到 3D / 视频?→
- §18.1Linear Projector / Q-Former / Cross-Attention / Perceiver 四种连接方案如何选?→
- §18.1多模态幻觉的系统化缓解(数据 / 解码 / 对齐 / 后处理)?→