§15.1.4
BLIP / BLIP-2 的 Q-Former 设计?
- §15.1CLIP 的对称 InfoNCE 与 zero-shot 分类?→
- §15.1ALIGN / SigLIP / SigLIP2 用 sigmoid 替换 softmax 的好处?→
- §15.1DINOv2 / DINOv3 / SigLIP / EVA-CLIP 作为 VLM 视觉塔的对比?→
- §15.2LLaVA 1.5 / 1.6 的 MLP projector + 视觉指令微调?→
- §15.2MiniGPT-4 / mPLUG-Owl / InternVL 1/2/2.5 / Qwen-VL / Qwen2-VL / Qwen2.5-VL / Qwen3-VL 的关键差异?→
- §15.2动态分辨率(AnyRes / Native dynamic resolution)方案?→