DeepSeek-V3.2: 开源大模型前沿
核心结论
- DeepSeek-V3.2 通过三大技术突破实现性能跃升,达到与 GPT-5 可比水平:
- DeepSeek Sparse Attention (DSA) — 高效稀疏注意力机制,大幅降低长上下文计算复杂度。
- 可扩展 RL 框架 — 后训练计算预算超过预训练成本的 10%,Speciale 变体在 IMO 2025 和 IOI 2025 中取得金牌。
- 大规模 Agent 任务合成管线 — 生成超 1800 个环境、85000+ 复杂 prompt,驱动 RL 训练。
关键事实
- DSA 由闪电索引器(lightning indexer)+ 细粒度 token 选择组成,在 MLA 架构下实现。
- 通过 continued training 从 V3.1-Terminus 起步,经历 dense warm-up(1000 步 / 2.1B tokens)和 sparse training(15000 步 / 943.7B tokens)。
- GRPO 训练的稳定性策略:无偏 KL 估计、Off-Policy Sequence Masking、Keep Routing、Keep Sampling Mask。
- Thinking-in-Tool-Use:设计了一种上下文管理策略,在工具调用场景中保留推理内容,不再冗余重推理。
- V3.2-Speciale 在 IMO 2025 获得 35/42 金牌,ICPC WF 2025 解出 10/12 题,CMO 2025 金牌。
- Code Agent 评估:Terminal Bench 2.0 46.4(使用 Claude Code),SWE Verified 73.1,SWE Multilingual 70.2。
- 搜索 Agent:BrowseComp 67.6(含上下文管理),显著超越开源竞品。
- token 效率仍不及 Gemini-3.0-Pro。
与现有 Wiki 的关系
可能的矛盾或待核实点
- DSA 在非 MLA 架构上的有效性仍需验证。
- Agent 合成数据的泛化上限尚未完全探明(论文内合成数据 RL 在 Tau2Bench/MCP-Mark 上提升显著但仍有局限)。
后续问题
- token 效率如何与 Gemini-3.0-Pro 对齐?
- 如何更大规模地工业化部署 thinking-in-tool-use?