MLP-Mixer: An all-MLP Architecture for Vision

核心结论

MLP-Mixer 提出了一个仅使用多层感知机（MLP）的视觉架构，证明了在足够数据规模下，卷积和注意力都不是必需的。
核心思想：将图像 patch 通过两类 MLP 层交替处理——channel-mixing MLP（跨通道信息交互）和 token-mixing MLP（跨空间位置信息交互）。
在大规模数据集上训练时，MLP-Mixer 能达到与 CNN 和 ViT 可比的分类性能，且预训练和推理成本相近。

作者：Ilya Tolstikhin, Neil Houlsby 等（Google Research, Brain Team）。
发表于 NeurIPS 2021（arXiv:2105.01601）。
架构：Per-patch Fully-connected → 多个 Mixer Layer（Token-mixing MLP + Channel-mixing MLP，各带 skip-connection 和 LayerNorm）→ Global Average Pooling → 分类头。
Token-mixing MLP 在 patch 维度上操作（跨空间），Channel-mixing MLP 在通道维度上操作（逐 patch 独立），两者都是对矩阵转置后应用相同的 MLP 操作。
代表性结果：在 ImageNet-21k 预训练 + ImageNet 微调下，Mixer-H/14 达 87.94% top-1（与 ViT-H/14 的 88.55% 接近）。