§5.1.2
ViT 为什么需要大数据或强增强(DeiT 蒸馏 token)?
- §5.1ViT 的 Patchify + Linear Projection + [CLS] + Pos Embedding 完整流程?→
- §5.1Swin / Swin v2 的 Shifted Window Attention 与相对位置偏置?→
- §5.1PVT / Twins / CSwin / MViT / FocalNet 的层次化设计?→
- §5.1MaxViT / CoAtNet 卷积+注意力混合?→
- §5.1Token Pruning / Token Merging(ToMe)加速 ViT?→
- §5.1可学习 / 2D sinusoidal / RoPE-2D / RPB 在视觉里的差异?→