Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

核心结论

Swin Transformer 提出了一种层级化 Vision Transformer，解决了 ViT 的两个关键局限：固定分辨率 token 和平方级自注意力计算复杂度。
通过 shifted window 自注意力机制，在局部窗口内计算注意力，同时通过窗口偏移实现跨窗口信息交互，计算复杂度从 O(N²) 降至 O(N)。
层级化设计使其天然适配 dense prediction 任务（检测、分割），成为通用视觉 backbone。

作者：Ze Liu, Yutong Lin, Yue Cao, Han Hu 等（Microsoft Research Asia）。
发表于 ICCV 2021（最佳论文奖，Marr Prize），arXiv:2103.14030。
核心结构：Patch Partition → 4 个 Stage（每阶段做 patch merging 降低分辨率、增加通道数）→ Swin Transformer Block（W-MSA + SW-MSA 交替）。
代表性结果：ImageNet-1K top-1 87.3%；COCO 检测 box AP 58.7 / mask AP 51.1；ADE20K 分割 mIoU 53.5，全面超越此前 SOTA。
Shifted window 设计也被证明对 all-MLP 架构有益（见 MLP-Mixer 后续工作）。