Masked Autoencoders Are Scalable Vision Learners

一句话总结：MAE 将 NLP 中 BERT 的掩码预训练范式成功引入视觉领域——随机遮住高达 75% 的图像 patch，用可见 patch 训练 ViT 编码器重建被遮住的部分，仅用一个轻量级解码器（预训练后丢弃）——在 ImageNet 上仅用 ViT-Huge 即可达到 87.8% Top-1，且训练效率比传统方法高 3 倍以上。

Figure 1: MAE 架构总览——随机遮住 75% 的图像 patch（灰色），编码器仅处理可见 patch（蓝色），轻量级解码器接收编码器输出 + 可学习掩码 token 后重建被遮住的 patch。预训练后解码器被丢弃，编码器直接用于下游任务。

Intro

Motivation

BERT 的成功证明了掩码自编码（Masked Autoencoding）是 NLP 中极具扩展性的自监督学习方法。但将这一范式迁移到视觉面临关键挑战：

CNN 的局部性：CNN 的卷积核天然适合局部模式，但掩码后图像中的空洞难以被卷积处理
信息冗余：图像相比文本有极高的空间冗余——即使遮住一大片区域，邻近像素也能轻易”猜出”被遮内容，这使得掩码预训练的任务变得 trivial
解码器的角色不明：BERT 中解码器仅是一个 MLP，但视觉中重建像素需要强大的解码器

核心主张

MAE 的核心洞察是”用极端的掩码比率来强制模型学习有意义的表征”：

75% 的极高掩码率：让任务足够困难，模型必须理解全局语义才能重建
不对称架构：编码器只处理可见 patch（高效），解码器处理所有 patch（包括掩码 token）但仅预训练时使用
轻量级解码器：解码器比编码器小得多，预训练后直接丢弃

贡献

成功将掩码自编码范式迁移到视觉，实现简单高效的自监督预训练
提出不对称编码器-解码器设计（编码器只处理可见 patch）
发现 75% 超高掩码率是最优的——远高于 BERT 的 15%
训练效率极高（比对比学习方法快 3-5 倍）
ViT-H/14 在 ImageNet 上达到 87.8% fine-tuning Top-1

Method 核心方法

MAE 将 NLP 中的掩码自编码范式成功迁移到视觉，其三个关键设计选择解决了视觉领域的独特挑战。

1. 掩码策略——75% 极高掩码率

将图像划分为不重叠的 patch（16×16），随机采样 25% 作为可见，75% 被遮住。

与 BERT（15%）的关键差异：图像空间冗余极高——邻域像素可轻易”猜出”被遮内容。75% 高掩码率：（1）消除冗余，迫使模型理解全局语义；（2）大幅减少编码器输入 token 数。

掩码率	ViT-L Top-1
50%	83.9%
75%	84.5%
90%	83.7%

2. 不对称编码器-解码器

编码器：标准 ViT，仅处理可见 patch（25%）——不处理掩码 token。计算量从 N 降至 0.25N。

解码器：轻量级 Transformer（8 层、512 维），输入 = 编码器输出 + 共享可学习掩码 token + 位置嵌入。预训练后丢弃，仅保留编码器用于下游。

不对称设计的必要性：解码器越轻量越好——大解码器会”接管”表征学习，削弱编码器的学习信号（消融：8 层/512 维最优）。

3. 重建目标

仅计算被遮 patch 的 per-patch 归一化 MSE（非原始 RGB）：归一化防止模型简单地学会”预测平均色”。不重建可见 patch——让编码器专注于学习被遮区域需要的全局语义。

4. 训练效率

编码器只处理 25% token → 单 epoch 训练时间约为传统方法的 1/3~1/5。更少的计算量允许在同样时间内预训练更大的模型。

实验/评估/结果

ImageNet-1K Fine-tuning（无额外数据）

模型	方法	Top-1 Acc
ViT-B	随机初始化	82.3%
ViT-B	MAE 预训练	83.6%
ViT-L	MAE 预训练	85.9%
ViT-H	MAE 预训练	87.8%

仅用 ImageNet-1K（无外部数据），MAE 预训练的 ViT-H 达到 87.8%，与使用 JFT-300M 的 ViT 性能可比。

消融实验（核心发现）

掩码率消融：

掩码率	ViT-L Top-1
50%	83.9%
75%	84.5%
90%	83.7%

75% 掩码率最优——这与 BERT（15%）形成鲜明对比，验证了”图像冗余需要更高掩码率”的假设。

解码器深度/宽度消融：

解码器深度从 1 层到 12 层：8 层最优（太浅重建差、太深过参数化无益）
解码器宽度从 128 到 768：512 最优
解码器越轻量越好——大解码器会”接管”表征学习的任务，削弱编码器的学习信号

归一化目标：

Per-patch 归一化 > 无归一化 > PCA 归一化
归一化防止模型 simple 地学会”预测平均色”

重建目标消融：

只重建被遮 patch（默认）> 重建全部 patch
MSE > L1 loss

下游迁移

COCO 目标检测（Mask R-CNN）：

MAE ViT-B：AP^box 47.9（v.s. 随机初始化 44.4）
MAE ViT-L：AP^box 50.3

ADE20K 语义分割（UperNet）：

MAE ViT-B：mIoU 48.1
MAE ViT-L：mIoU 51.6

视频分类（Kinetics-400/600）：MAE 预训练权重也可以很好地迁移到视频理解。

定性分析

重建的可视化结果表明，MAE 学到了有意义的视觉表征——即使 75% 像素被遮，模型仍能重建出模糊但语义正确的全局结构
掩码 patch 的 hidden state 在微调后表现出良好的语义对齐

Figure 2: MAE 在不同掩码率下的重建结果——从左到右依次为原图、75% 掩码输入、MAE 重建结果、BEiT 重建结果。MAE 即使在高掩码率下也能重建出语义合理的图像结构（如物体轮廓和布局），而 BEiT 倾向于产生模糊的平均色块，说明 MAE 学到了更本质的视觉语义表征。

结论

MAE 成功将掩码自编码范式迁移到视觉领域，其核心洞察是：由于图像的极高空间冗余，需要采用远高于 NLP 的掩码率（75%），使用不对称的编码器-解码器设计，仅编码器处理可见 token 以提升效率。MAE 是一个简单、高效、可扩展的自监督视觉学习方法，支持从分类到检测和分割的多种下游任务。

思考

优点

方法论上的简洁之美：MAE 的核心思想几句话就能说清——遮住 75% 的图像，用 ViT 编码可见部分，轻量解码器重建遮住部分。这种极简性让 MAE 成为教学和传播的经典。
75% 掩码率是一个深刻的洞察：这是将 BERT 范式迁移到视觉的关键桥梁。“图像的冗余 v.s. 文本的信息密度”这一对比不仅解释了为什么需要高掩码率，还暗含了对两种模态本质差异的深刻理解。
架构的不对称设计是点睛之笔：编码器不见掩码 token 大幅节省计算，解码器轻量到”用完即弃”。这种”为预训练而设计、推理时不带包袱”的思路影响了后续所有掩码建模工作。
训练效率的突破：比 MoCo v3 等对比学习方法快 3 倍以上的训练速度，是大规模自监督预训练实用化的重要一步。
全任务验证：不仅验证分类，还验证了检测和分割的迁移效果。在 MAE 之前，许多自监督方法在检测上的迁移效果远不如分类。

缺点与局限

掩码策略的随机性：随机掩码虽然简单，但未必是最优的信息选择策略。有结构的掩码（如基于注意力、基于语义区域）可能更有效地引导模型学习。
解码器的”用完即弃”可能浪费学习信号：解码器在预训练中学到的重建能力被丢弃，是否有办法将解码器的能力也迁移到下游任务？
对 CNN 的适用性有限：MAE 的设计深度绑定 ViT 架构（编码器只处理可见 token 依赖 Transformer 的序列灵活性）。虽然 ConvMAE 等试过适配 CNN，但效果不如 ViT。
下游微调仍需标签：MAE 是预训练方法，最终的分类/检测/分割仍需要监督微调。与 CLIP 等零样本方法相比，在灵活性上有所不同。

Blog1

探索