一句话总结:MAE 将 NLP 中 BERT 的掩码预训练范式成功引入视觉领域——随机遮住高达 75% 的图像 patch,用可见 patch 训练 ViT 编码器重建被遮住的部分,仅用一个轻量级解码器(预训练后丢弃)——在 ImageNet 上仅用 ViT-Huge 即可达到 87.8% Top-1,且训练效率比传统方法高 3 倍以上。

Figure 1: MAE 架构总览——随机遮住 75% 的图像 patch(灰色),编码器仅处理可见 patch(蓝色),轻量级解码器接收编码器输出 + 可学习掩码 token 后重建被遮住的 patch。预训练后解码器被丢弃,编码器直接用于下游任务。
Intro
Motivation
BERT 的成功证明了掩码自编码(Masked Autoencoding)是 NLP 中极具扩展性的自监督学习方法。但将这一范式迁移到视觉面临关键挑战:
- CNN 的局部性:CNN 的卷积核天然适合局部模式,但掩码后图像中的空洞难以被卷积处理
- 信息冗余:图像相比文本有极高的空间冗余——即使遮住一大片区域,邻近像素也能轻易”猜出”被遮内容,这使得掩码预训练的任务变得 trivial
- 解码器的角色不明:BERT 中解码器仅是一个 MLP,但视觉中重建像素需要强大的解码器
核心主张
MAE 的核心洞察是”用极端的掩码比率来强制模型学习有意义的表征”:
- 75% 的极高掩码率:让任务足够困难,模型必须理解全局语义才能重建
- 不对称架构:编码器只处理可见 patch(高效),解码器处理所有 patch(包括掩码 token)但仅预训练时使用
- 轻量级解码器:解码器比编码器小得多,预训练后直接丢弃
贡献
- 成功将掩码自编码范式迁移到视觉,实现简单高效的自监督预训练
- 提出不对称编码器-解码器设计(编码器只处理可见 patch)
- 发现 75% 超高掩码率是最优的——远高于 BERT 的 15%
- 训练效率极高(比对比学习方法快 3-5 倍)
- ViT-H/14 在 ImageNet 上达到 87.8% fine-tuning Top-1
Method 核心方法
MAE 将 NLP 中的掩码自编码范式成功迁移到视觉,其三个关键设计选择解决了视觉领域的独特挑战。
1. 掩码策略——75% 极高掩码率
将图像划分为不重叠的 patch(16×16),随机采样 25% 作为可见,75% 被遮住。
与 BERT(15%)的关键差异:图像空间冗余极高——邻域像素可轻易”猜出”被遮内容。75% 高掩码率:(1)消除冗余,迫使模型理解全局语义;(2)大幅减少编码器输入 token 数。
| 掩码率 | ViT-L Top-1 |
|---|---|
| 50% | 83.9% |
| 75% | 84.5% |
| 90% | 83.7% |
2. 不对称编码器-解码器
编码器:标准 ViT,仅处理可见 patch(25%)——不处理掩码 token。计算量从 N 降至 0.25N。
解码器:轻量级 Transformer(8 层、512 维),输入 = 编码器输出 + 共享可学习掩码 token + 位置嵌入。预训练后丢弃,仅保留编码器用于下游。
不对称设计的必要性:解码器越轻量越好——大解码器会”接管”表征学习,削弱编码器的学习信号(消融:8 层/512 维最优)。
3. 重建目标
仅计算被遮 patch 的 per-patch 归一化 MSE(非原始 RGB):归一化防止模型简单地学会”预测平均色”。不重建可见 patch——让编码器专注于学习被遮区域需要的全局语义。
4. 训练效率
编码器只处理 25% token → 单 epoch 训练时间约为传统方法的 1/3~1/5。更少的计算量允许在同样时间内预训练更大的模型。
实验/评估/结果
ImageNet-1K Fine-tuning(无额外数据)
| 模型 | 方法 | Top-1 Acc |
|---|---|---|
| ViT-B | 随机初始化 | 82.3% |
| ViT-B | MAE 预训练 | 83.6% |
| ViT-L | MAE 预训练 | 85.9% |
| ViT-H | MAE 预训练 | 87.8% |
仅用 ImageNet-1K(无外部数据),MAE 预训练的 ViT-H 达到 87.8%,与使用 JFT-300M 的 ViT 性能可比。
消融实验(核心发现)
掩码率消融:
| 掩码率 | ViT-L Top-1 |
|---|---|
| 50% | 83.9% |
| 75% | 84.5% |
| 90% | 83.7% |
75% 掩码率最优——这与 BERT(15%)形成鲜明对比,验证了”图像冗余需要更高掩码率”的假设。
解码器深度/宽度消融:
- 解码器深度从 1 层到 12 层:8 层最优(太浅重建差、太深过参数化无益)
- 解码器宽度从 128 到 768:512 最优
- 解码器越轻量越好——大解码器会”接管”表征学习的任务,削弱编码器的学习信号
归一化目标:
- Per-patch 归一化 > 无归一化 > PCA 归一化
- 归一化防止模型 simple 地学会”预测平均色”
重建目标消融:
- 只重建被遮 patch(默认)> 重建全部 patch
- MSE > L1 loss
下游迁移
COCO 目标检测(Mask R-CNN):
- MAE ViT-B:AP^box 47.9(v.s. 随机初始化 44.4)
- MAE ViT-L:AP^box 50.3
ADE20K 语义分割(UperNet):
- MAE ViT-B:mIoU 48.1
- MAE ViT-L:mIoU 51.6
视频分类(Kinetics-400/600):MAE 预训练权重也可以很好地迁移到视频理解。
定性分析
- 重建的可视化结果表明,MAE 学到了有意义的视觉表征——即使 75% 像素被遮,模型仍能重建出模糊但语义正确的全局结构
- 掩码 patch 的 hidden state 在微调后表现出良好的语义对齐

Figure 2: MAE 在不同掩码率下的重建结果——从左到右依次为原图、75% 掩码输入、MAE 重建结果、BEiT 重建结果。MAE 即使在高掩码率下也能重建出语义合理的图像结构(如物体轮廓和布局),而 BEiT 倾向于产生模糊的平均色块,说明 MAE 学到了更本质的视觉语义表征。
结论
MAE 成功将掩码自编码范式迁移到视觉领域,其核心洞察是:由于图像的极高空间冗余,需要采用远高于 NLP 的掩码率(75%),使用不对称的编码器-解码器设计,仅编码器处理可见 token 以提升效率。MAE 是一个简单、高效、可扩展的自监督视觉学习方法,支持从分类到检测和分割的多种下游任务。
思考
优点
-
方法论上的简洁之美:MAE 的核心思想几句话就能说清——遮住 75% 的图像,用 ViT 编码可见部分,轻量解码器重建遮住部分。这种极简性让 MAE 成为教学和传播的经典。
-
75% 掩码率是一个深刻的洞察:这是将 BERT 范式迁移到视觉的关键桥梁。“图像的冗余 v.s. 文本的信息密度”这一对比不仅解释了为什么需要高掩码率,还暗含了对两种模态本质差异的深刻理解。
-
架构的不对称设计是点睛之笔:编码器不见掩码 token 大幅节省计算,解码器轻量到”用完即弃”。这种”为预训练而设计、推理时不带包袱”的思路影响了后续所有掩码建模工作。
-
训练效率的突破:比 MoCo v3 等对比学习方法快 3 倍以上的训练速度,是大规模自监督预训练实用化的重要一步。
-
全任务验证:不仅验证分类,还验证了检测和分割的迁移效果。在 MAE 之前,许多自监督方法在检测上的迁移效果远不如分类。
缺点与局限
-
掩码策略的随机性:随机掩码虽然简单,但未必是最优的信息选择策略。有结构的掩码(如基于注意力、基于语义区域)可能更有效地引导模型学习。
-
解码器的”用完即弃”可能浪费学习信号:解码器在预训练中学到的重建能力被丢弃,是否有办法将解码器的能力也迁移到下游任务?
-
对 CNN 的适用性有限:MAE 的设计深度绑定 ViT 架构(编码器只处理可见 token 依赖 Transformer 的序列灵活性)。虽然 ConvMAE 等试过适配 CNN,但效果不如 ViT。
-
下游微调仍需标签:MAE 是预训练方法,最终的分类/检测/分割仍需要监督微调。与 CLIP 等零样本方法相比,在灵活性上有所不同。