§19.3.7
VLM CoT / Visual CoT / Image-of-Thought / Chain-of-Spot?
CV 计算机视觉 · 付费章节
每个框架的第 1 节免费。要读后续章节,可单独解锁本框架,或一次解锁 4 个框架。
或 Pro 订阅 ¥49/月 · 报名冲刺营 都包含解锁
- §19.3Visual RFT / VLM 上的 GRPO / R1 路线?→
- §19.3GUI Agent / OS Agent(CogAgent、SeeClick、Ferret-UI、UI-TARS)的视觉接地?→
- §19.3Visual RFT / VLM 上的 GRPO / R1 路线?→
- §19.3GUI Agent / OS Agent(CogAgent、SeeClick、Ferret-UI、UI-TARS)的视觉接地?→
- §19.1Vision Foundation Model 全景:CLIP / DINOv2/v3 / SAM2 / Depth Anything / VGGT / RAM / Grounding DINO 的定位?→
- §19.1Open-Vocabulary 检测/分割统一范式(YOLO-World、APE、OMG-Seg)?→