LLM2021· CVPR 2022· CLASSIC

MAE: Masked Autoencoders Are Scalable Vision Learners

He et al. (FAIR)

BERT-for-vision:mask 掉 75% patch、不对称 encoder/decoder、像素级重建——把 ViT 的 SSL 推到生产可用。

arXiv:2111.06377
#ssl#vision#vit#masked-modeling

核心贡献

  • 01极高 mask ratio(75%)——图像冗余高,少 mask 太容易
  • 02Encoder 只看可见 patch(25%),decoder 负责重建——大幅省算力
  • 03像素回归(MSE)就够,不需要复杂 tokenizer(vs BEiT 用 dVAE)
  • 04ViT-Huge 上 ImageNet fine-tune 87.8%,是当时 SOTA

图像不像文本——每个 patch 信息量低,mask 15% 太容易(邻居就够推断)。MAE 把 mask ratio 拉到 75%,让任务足够难。架构上做不对称:encoder 只处理可见 patch(速度翻 4×),decoder 拿 mask token + encoder 输出重建像素。Decoder 用完即弃,下游只留 encoder。

面试视角

MAE vs BEiT? BEiT 重建 discrete token(dVAE 编码),MAE 直接回归像素。MAE 简单且效果不输。MAE vs SimMIM? 几乎同时期工作,结论相似——mask 高比例 + 简单重建即可。为什么图像 mask 比 BERT 高这么多? 文本 token 信息密度高、长距离依赖强;图像 patch 之间空间冗余大。视频版(VideoMAE)? Mask ratio 拉到 90%——时空冗余更高。为什么 decoder 能丢? 重建是 pretext,下游只需要 representation。

相关论文