测试时计算扩展

定义

测试时计算扩展(Test-Time Compute Scaling)是指在模型推理阶段通过增加计算量(更长的思维链、更多采样、搜索等)来提升输出质量的方法。这是推理模型(reasoning models)区别于传统 LLM 的关键特征。

核心机制

推理模型通过”思考”来提升回答质量——在生成最终答案前,模型先进行多步推理(chain-of-thought)。测试时计算扩展研究的是:给定更多推理时间(thinking budget),模型性能如何提升?

与训练时计算的对比

维度训练时扩展测试时扩展
何时发生训练阶段推理阶段
成本一次性的高成本每次推理的额外成本
目标提升基础能力提升单次输出质量
Scaling lawChinchilla 定律推理长度 vs 性能的 return

主要方法

1. Thinking Budget(推理预算)

  • DeepSeek R1:模型训练时学习不同长度的推理链,推理时自然涌现长思维
  • Qwen3:通过 /think/no_think 模式切换,thinking budget 机制允许用户控制推理深度
  • MiniMax-M1:发布 40K 和 80K 两个 thinking budget 版本,分别适合不同复杂度任务

2. 高效注意力机制

长推理(80K+ token)的瓶颈是注意力计算量随序列长度平方增长。解决方案:

  • Linear/Flash Attention:线性复杂度或 IO 优化
  • Lightning Attention(MiniMax-M1):混合设计——关键层用标准 attention,其余层用线性 attention
  • NSA/DSA:稀疏注意力减少有效计算量

3. 高效 RL 训练以支持长推理

  • GRPO(DeepSeek):group-relative 降低长推理的 RL 方差
  • CISPO(MiniMax-M1):裁剪重要性采样权重(而非 token 更新),进一步提升效率

MiniMax-M1 的关键贡献

MiniMax-M1 是测试时计算效率化的重要案例(参见 MiniMax-M1 测试时计算扩展):

  • Lightning Attention 使 100K token 生成长度的 FLOPs 仅为 DeepSeek R1 的 25%
  • 456B 总/45.9B 激活 MoE,原生支持 100 万 token 上下文
  • RL 训练成本仅 $534,700(512 H800 × 3 周)

开放问题

  1. Thinking budget 的 “ROI”:增加推理长度带来的性能提升是递减的。在什么任务上值得花 10 倍推理计算?
  2. 推理质量的评估:如何区分”有用的长推理”和”重复绕圈子的长推理”?
  3. 效率 vs 质量的帕累托最优:不同注意力机制(标准、线性、稀疏)在不同长度的性能和效率 trade-off

来源