测试时计算扩展

定义

测试时计算扩展（Test-Time Compute Scaling）是指在模型推理阶段通过增加计算量（更长的思维链、更多采样、搜索等）来提升输出质量的方法。这是推理模型（reasoning models）区别于传统 LLM 的关键特征。

核心机制

推理模型通过”思考”来提升回答质量——在生成最终答案前，模型先进行多步推理（chain-of-thought）。测试时计算扩展研究的是：给定更多推理时间（thinking budget），模型性能如何提升？

与训练时计算的对比

维度	训练时扩展	测试时扩展
何时发生	训练阶段	推理阶段
成本	一次性的高成本	每次推理的额外成本
目标	提升基础能力	提升单次输出质量
Scaling law	Chinchilla 定律	推理长度 vs 性能的 return

主要方法

1. Thinking Budget（推理预算）

DeepSeek R1：模型训练时学习不同长度的推理链，推理时自然涌现长思维
Qwen3：通过 /think 和 /no_think 模式切换，thinking budget 机制允许用户控制推理深度
MiniMax-M1：发布 40K 和 80K 两个 thinking budget 版本，分别适合不同复杂度任务

2. 高效注意力机制

长推理（80K+ token）的瓶颈是注意力计算量随序列长度平方增长。解决方案：

Linear/Flash Attention：线性复杂度或 IO 优化
Lightning Attention（MiniMax-M1）：混合设计——关键层用标准 attention，其余层用线性 attention
NSA/DSA：稀疏注意力减少有效计算量

3. 高效 RL 训练以支持长推理

GRPO（DeepSeek）：group-relative 降低长推理的 RL 方差
CISPO（MiniMax-M1）：裁剪重要性采样权重（而非 token 更新），进一步提升效率

MiniMax-M1 的关键贡献

MiniMax-M1 是测试时计算效率化的重要案例（参见 MiniMax-M1 测试时计算扩展）：

Lightning Attention 使 100K token 生成长度的 FLOPs 仅为 DeepSeek R1 的 25%
456B 总/45.9B 激活 MoE，原生支持 100 万 token 上下文
RL 训练成本仅 $534,700（512 H800 × 3 周）

开放问题

Thinking budget 的 “ROI”：增加推理长度带来的性能提升是递减的。在什么任务上值得花 10 倍推理计算？
推理质量的评估：如何区分”有用的长推理”和”重复绕圈子的长推理”？
效率 vs 质量的帕累托最优：不同注意力机制（标准、线性、稀疏）在不同长度的性能和效率 trade-off

来源