§15.2.9
Grounding 能力(Kosmos-2、Grounding-DINO、GLaMM、Ferret)如何注入坐标?
- §15.2LLaVA 1.5 / 1.6 的 MLP projector + 视觉指令微调?→
- §15.2MiniGPT-4 / mPLUG-Owl / InternVL 1/2/2.5 / Qwen-VL / Qwen2-VL / Qwen2.5-VL / Qwen3-VL 的关键差异?→
- §15.2动态分辨率(AnyRes / Native dynamic resolution)方案?→
- §15.2OCR-free 文档 VLM(GOT-OCR2 / DocOwl / MiniCPM-V)?→
- §15.2视频 VLM:Video-LLaMA / Video-LLaVA / VideoChat2 / LLaVA-Next-Video / VideoLLM-MoD?→
- §15.2原生多模态:GPT-4o / Gemini / Chameleon 的统一 token 设计?→