LLM2021· CVPR 2022· CLASSIC

MAE: Masked Autoencoders Are Scalable Vision Learners

He et al. (FAIR)

BERT-for-vision：mask 掉 75% patch、不对称 encoder/decoder、像素级重建——把 ViT 的 SSL 推到生产可用。

#ssl#vision#vit#masked-modeling

核心贡献

01极高 mask ratio（75%）——图像冗余高，少 mask 太容易
02Encoder 只看可见 patch（25%），decoder 负责重建——大幅省算力
03像素回归（MSE）就够，不需要复杂 tokenizer（vs BEiT 用 dVAE）
04ViT-Huge 上 ImageNet fine-tune 87.8%，是当时 SOTA

图像不像文本——每个 patch 信息量低，mask 15% 太容易（邻居就够推断）。MAE 把 mask ratio 拉到 75%，让任务足够难。架构上做不对称：encoder 只处理可见 patch（速度翻 4×），decoder 拿 mask token + encoder 输出重建像素。Decoder 用完即弃，下游只留 encoder。

面试视角

MAE vs BEiT？ BEiT 重建 discrete token（dVAE 编码），MAE 直接回归像素。MAE 简单且效果不输。MAE vs SimMIM？ 几乎同时期工作，结论相似——mask 高比例 + 简单重建即可。为什么图像 mask 比 BERT 高这么多？ 文本 token 信息密度高、长距离依赖强；图像 patch 之间空间冗余大。视频版（VideoMAE）？ Mask ratio 拉到 90%——时空冗余更高。为什么 decoder 能丢？ 重建是 pretext，下游只需要 representation。