§19.3.8
Visual RFT / VLM 上的 GRPO / R1 路线?
- §19.3VLM CoT / Visual CoT / Image-of-Thought / Chain-of-Spot?→
- §19.3GUI Agent / OS Agent(CogAgent、SeeClick、Ferret-UI、UI-TARS)的视觉接地?→
- §19.1Vision Foundation Model 全景:CLIP / DINOv2/v3 / SAM2 / Depth Anything / VGGT / RAM / Grounding DINO 的定位?→
- §19.1Open-Vocabulary 检测/分割统一范式(YOLO-World、APE、OMG-Seg)?→
- §19.1Universal segmentation(OneFormer、Mask2Former、SEEM)?→
- §19.2DUSt3R / MASt3R / Spann3R / VGGT 端到端无标定多视图重建?→