ViT: An Image is Worth 16x16 Words

核心结论

ViT 首次证明了 纯 Transformer 架构可以直接应用于图像分类，不需要依赖 CNN 的归纳偏置（inductive bias）。
将图像切分为固定大小的 patch（如 16x16），作为 token 序列输入标准 Transformer encoder，与 NLP 中处理词元的方式完全一致。
在大规模预训练（JFT-300M）条件下，ViT 在多个图像识别 benchmark 上达到或超越当时 SOTA CNN，且训练计算资源显著更少。

作者：Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov 等（Google Research, Brain Team）。
发表于 ICLR 2021（arXiv:2010.11929）。
核心设计：图像 → patch embedding + position embedding → Transformer encoder → MLP head 分类。
关键发现：ViT 在小数据集上不如 CNN（缺乏归纳偏置），但数据量足够大时（ImageNet-21k 或 JFT-300M 预训练）可超越 CNN。
代表性结果：ViT-H/14 在 ImageNet 上达 88.55% top-1 accuracy。