多模态大模型 VLM 面试
LLaVA、Qwen-VL、InternVL、Gemini——主流视觉语言模型架构、训练数据、对齐方案。
#VLM 面试#LLaVA#Qwen-VL#InternVL#多模态面试
§3.1
LLaVA 家族
§3.2
Qwen-VL 家族
§3.3
InternVL 家族
§3.4
其他开源模型
- 3.4.1MiniCPM-V 2.6 / MiniCPM-o 的端侧优化?∫</>
- 3.4.2DeepSeek-VL / DeepSeek-VL2 的 MoE + MLA 视觉版?∫</>
- 3.4.3Molmo (AI2) 的 PixMo 数据 + pointing 能力?∫</>
- 3.4.4Pixtral (Mistral) / Pixtral Large 的架构?∫</>
- 3.4.5NVILA / VILA 1.5 的高效设计(token 压缩 / scale-then-compress)?∫</>
- 3.4.6Aria (Rhymes AI) 的原生 MoE 多模态?∫</>
- 3.4.7Idefics 1/2/3、PaliGemma / PaliGemma 2 的架构?∫</>
- 3.4.8CogVLM / CogVLM2 的 Visual Expert 模块?∫</>
- 3.4.9Fuyu / Adept 的原生单塔架构?∫</>
- 3.4.10Llama 3.2 Vision / Llama 4 的 early fusion?∫</>
- 3.4.11Phi-3.5-Vision / Phi-4-Multimodal 的小模型方案?∫</>
- 3.4.12Yi-VL / Baichuan-VL / Skywork-VL 的设计?∫</>
本主题 34 道题,第 1 章免费阅读