测试时计算扩展
定义
测试时计算扩展(Test-Time Compute Scaling)是指在模型推理阶段通过增加计算量(更长的思维链、更多采样、搜索等)来提升输出质量的方法。这是推理模型(reasoning models)区别于传统 LLM 的关键特征。
核心机制
推理模型通过”思考”来提升回答质量——在生成最终答案前,模型先进行多步推理(chain-of-thought)。测试时计算扩展研究的是:给定更多推理时间(thinking budget),模型性能如何提升?
与训练时计算的对比
| 维度 | 训练时扩展 | 测试时扩展 |
|---|---|---|
| 何时发生 | 训练阶段 | 推理阶段 |
| 成本 | 一次性的高成本 | 每次推理的额外成本 |
| 目标 | 提升基础能力 | 提升单次输出质量 |
| Scaling law | Chinchilla 定律 | 推理长度 vs 性能的 return |
主要方法
1. Thinking Budget(推理预算)
- DeepSeek R1:模型训练时学习不同长度的推理链,推理时自然涌现长思维
- Qwen3:通过
/think和/no_think模式切换,thinking budget 机制允许用户控制推理深度 - MiniMax-M1:发布 40K 和 80K 两个 thinking budget 版本,分别适合不同复杂度任务
2. 高效注意力机制
长推理(80K+ token)的瓶颈是注意力计算量随序列长度平方增长。解决方案:
- Linear/Flash Attention:线性复杂度或 IO 优化
- Lightning Attention(MiniMax-M1):混合设计——关键层用标准 attention,其余层用线性 attention
- NSA/DSA:稀疏注意力减少有效计算量
3. 高效 RL 训练以支持长推理
- GRPO(DeepSeek):group-relative 降低长推理的 RL 方差
- CISPO(MiniMax-M1):裁剪重要性采样权重(而非 token 更新),进一步提升效率
MiniMax-M1 的关键贡献
MiniMax-M1 是测试时计算效率化的重要案例(参见 MiniMax-M1 测试时计算扩展):
- Lightning Attention 使 100K token 生成长度的 FLOPs 仅为 DeepSeek R1 的 25%
- 456B 总/45.9B 激活 MoE,原生支持 100 万 token 上下文
- RL 训练成本仅 $534,700(512 H800 × 3 周)
开放问题
- Thinking budget 的 “ROI”:增加推理长度带来的性能提升是递减的。在什么任务上值得花 10 倍推理计算?
- 推理质量的评估:如何区分”有用的长推理”和”重复绕圈子的长推理”?
- 效率 vs 质量的帕累托最优:不同注意力机制(标准、线性、稀疏)在不同长度的性能和效率 trade-off