§5.1.5
MaxViT / CoAtNet 卷积+注意力混合?
- §5.1ViT 的 Patchify + Linear Projection + [CLS] + Pos Embedding 完整流程?→
- §5.1ViT 为什么需要大数据或强增强(DeiT 蒸馏 token)?→
- §5.1Swin / Swin v2 的 Shifted Window Attention 与相对位置偏置?→
- §5.1PVT / Twins / CSwin / MViT / FocalNet 的层次化设计?→
- §5.1Token Pruning / Token Merging(ToMe)加速 ViT?→
- §5.1可学习 / 2D sinusoidal / RoPE-2D / RPB 在视觉里的差异?→