§21.1.10
CLIP 为什么能 zero-shot?它的局限(细粒度、计数、空间关系)来自哪里?
- §21.1为什么 BatchNorm 在 batch 很小时退化?检测/分割如何替代?→
- §21.1为什么 ResNet 残差有效?从梯度、隐式集成、loss landscape 三个角度回答。→
- §21.1ViT 在小数据上不如 CNN,根因与缓解(DeiT、ConvNeXt、Hybrid)?→
- §21.1卷积感受野公式与有效感受野的差异(Effective Receptive Field 论文结论)?→
- §21.1RoI Pool → RoI Align → Deformable RoI 的演进逻辑?→
- §21.1DETR 收敛慢的根因?Deformable / DN-DETR / DINO 是怎么解决的?→