MAE: Masked Autoencoders Are Scalable Vision Learners
He et al. (FAIR)
BERT-for-vision:mask 掉 75% patch、不对称 encoder/decoder、像素级重建——把 ViT 的 SSL 推到生产可用。
arXiv:2111.06377#ssl#vision#vit#masked-modeling
核心贡献
- 01极高 mask ratio(75%)——图像冗余高,少 mask 太容易
- 02Encoder 只看可见 patch(25%),decoder 负责重建——大幅省算力
- 03像素回归(MSE)就够,不需要复杂 tokenizer(vs BEiT 用 dVAE)
- 04ViT-Huge 上 ImageNet fine-tune 87.8%,是当时 SOTA
图像不像文本——每个 patch 信息量低,mask 15% 太容易(邻居就够推断)。MAE 把 mask ratio 拉到 75%,让任务足够难。架构上做不对称:encoder 只处理可见 patch(速度翻 4×),decoder 拿 mask token + encoder 输出重建像素。Decoder 用完即弃,下游只留 encoder。
MAE vs BEiT? BEiT 重建 discrete token(dVAE 编码),MAE 直接回归像素。MAE 简单且效果不输。MAE vs SimMIM? 几乎同时期工作,结论相似——mask 高比例 + 简单重建即可。为什么图像 mask 比 BERT 高这么多? 文本 token 信息密度高、长距离依赖强;图像 patch 之间空间冗余大。视频版(VideoMAE)? Mask ratio 拉到 90%——时空冗余更高。为什么 decoder 能丢? 重建是 pretext,下游只需要 representation。
SimCLR: A Simple Framework for Contrastive Learning of Visual Representations
MoCo: Momentum Contrast for Unsupervised Visual Representation Learning
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion)