Attention Is All You Need

核心结论

  • 提出了 Transformer 架构,完全基于注意力机制,摒弃了 RNN 和 CNN,是序列到序列建模的范式转变。
  • 在 WMT 2014 英德翻译上达到 28.4 BLEU(超越所有已有模型包括集成模型),英法翻译上达到 41.8 BLEU,训练成本仅为之前最优模型的一小部分。
  • 自注意力层以常数次操作连接任意位置,解决了 RNN 的顺序计算瓶颈和长距离依赖问题,训练高度可并行。
  • 多头注意力允许模型在不同表示子空间中联合关注信息,且单头注意力与多头注意力质量差距达 0.9 BLEU。

关键方法或创新点

  • Scaled Dot-Product Attention:对点积除以 sqrt(d_k) 防止 softmax 进入小梯度区域。
  • Multi-Head Attention:h=8 个头并行投影,每个头 d_k=d_v=64,拼接后线性投影。
  • 位置编码(Sinusoidal PE):使用正弦/余弦函数注入位置信息,波长形成几何级数,允许外推到更长的序列长度。
  • 残差连接 + Layer Normalization:每个子层前后都用 LN(x + Sublayer(x))。
  • 学习率 warmup:前 4000 步线性增加,之后反向 sqrt 衰减。
  • 模型也成功泛化到英语成分句法分析(WSJ 23 F1 达到 92.7)。

与现有 Wiki 的关系

局限或注意事项

  • 自注意力复杂度 O(n^2 · d),无法直接处理长序列;文中提到研究受限注意力作为未来方向。
  • 当时仅在翻译和解析任务上评估(2017),尚未探索在语言模型预训练 + 微调范式中的应用。
  • 模型规模较小(base 65M, big 213M 参数),与现代 LLM 的规模差距巨大。