GLM-5: 从 Vibe Coding 到 Agentic Engineering
基本信息
- 作者:Zhipu AI & 清华大学(核心贡献者包括 Aohan Zeng、Xin Lv、Zhenyu Hou 等,顾问包括 Jie Tang、Yuxiao Dong 等)
- 发布年份:2026
- 来源:arXiv:2602.15763
- 代码与模型:github.com/zai-org/GLM-5
- 定位:智谱 AI 下一代旗舰基础模型,GLM-4.5 的后继者
核心论点
GLM-5 提出从 Vibe Coding(人类提示、AI 写代码)向 Agentic Engineering(AI Agent 自主规划、实现、迭代)的范式转变。其核心主张:
- 开放权重模型可以媲美顶级闭源系统:GLM-5 在主流基准上达到开源模型 SOTA,与 Claude Opus 4.5、GPT-5.2 (xhigh) 可比,超过 Gemini 3 Pro。
- 真实软件工程能力比静态基准更重要:GLM-5 在端到端软件开发任务(SWE-bench、Terminal-Bench、CC-Bench-V2)上展示了前所未有的能力。
- 效率与性能可以兼得:通过 DSA(DeepSeek Sparse Attention)等架构创新,在不牺牲长上下文能力的前提下显著降低训练和推理成本。
关键技术方法
模型架构
- 规模:744B 总参数,40B 激活参数(MoE 架构,256 个专家,80 层,较 GLM-4.5 的 355B/32B �倍)
- 训练数据:总计 28.5 万亿 tokens(预训练 27T + 中期训练 1.5T)
- 上下文长度:从 4K 逐步扩展到 200K
- Multi-Latent Attention (MLA):采用 Muon Split 技术解决了 MLA 在 Muon 优化器下的性能差距,并优化了 MLA-256 变体以降低解码计算量
- Multi-Token Prediction (MTP):提出参数共享的 3 层 MTP,提高推测解码接受率(2.76 vs DeepSeek-V3.2 的 2.55)
DSA(DeepSeek Sparse Attention)
- 将传统 O(L^2) 密集注意力替换为动态细粒度选择机制,根据 token 重要性分配注意力资源
- 通过”密集预热 + 稀疏训练适应”两阶段策略从密集模型迁移,仅需 20B tokens 适配(远少于 DeepSeek-V3.2 的 943.7B)
- 长序列注意力计算降低约 1.5-2 倍,128K 上下文仅需一半 GPU 成本
- 相比滑动窗口注意力 (SWA)、Gated DeltaNet (GDN) 等替代方案,DSA 在长上下文任务上无损
训练流程
- 预训练:27T tokens 语料,优先代码和推理数据
- 中期训练 (Mid-Training):三阶段上下文扩展(32K/128K/200K),重点注入长上下文 Agent 数据和软件工程数据(约 1000 万个 issue-PR 对)
- 监督微调 (SFT):覆盖通用对话、推理、编码与 Agent 三大类,支持三种思维模式:
- Interleaved Thinking:每次响应和工具调用前思考
- Preserved Thinking:编码 Agent 场景中跨轮次保留所有思维块
- Turn-level Thinking:按轮次控制是否启用推理
- 推理 RL:基于 GRPO + IcePop 技术,混合数学、科学、代码和工具集成推理 (TIR) 四领域训练
- Agent RL:全异步解耦 RL 框架,编码和搜索 Agent 任务
- 通用 RL:三维度优化(基础正确性、情感智能、任务质量),混合奖励系统(规则、ORM、GRM),人类对齐
- On-Policy 跨阶段蒸馏:最终阶段,防止多阶段 RL 导致的能力退化
异步 RL 基础设施(slime 框架)
- 解耦训练引擎和推理引擎,减少 Agent rollout 长尾导致的 GPU 空闲
- Token-in-Token-out (TITO) 网关:避免重新分词导致的不匹配
- 直接双侧重要性采样:token 级裁剪机制控制 off-policy 偏差
- DP-aware 路由:最大化 MoE 推理中 KV-cache 复用
- 支持 1000+ 并发 rollout,自动调整任务采样比例
Vibe Coding vs Agentic Engineering
| 维度 | Vibe Coding | Agentic Engineering |
|---|---|---|
| 交互模式 | 人类提示,AI 写代码 | AI Agent 自主规划、实现、迭代 |
| 任务范围 | 单轮、局部代码生成 | 长时程、端到端软件工程 |
| 关键能力 | 代码补全、指令遵循 | 长上下文一致性、自我纠错、环境交互 |
| 评估方式 | 静态基准(SWE-bench 等) | 真实工程环境(CC-Bench-V2) |
Agent 环境构建
- 软件工程环境:基于 RepoLaunch 框架,从真实 SWE issue 构建超过 1 万个可验证环境,覆盖 9 种编程语言
- 终端环境:从种子数据和网络语料两条管线合成,Docker 构建准确率超过 90%
- 搜索任务:构建 Web Knowledge Graph (WKG),自动生成高难度多跳 QA 对,三阶段过滤确保质量
- 幻灯片生成:多层级奖励设计(静态标记、运行时渲染、视觉感知),自改进管线
搜索 Agent 上下文管理
- 提出 Hierarchical Context Management 策略:Keep-recent-k(保留最近 k 轮)+ Discard-all(超阈值 T 时清空)
- BrowseComp 从 55.3% 提升至 62.0%(keep-recent),最终达 75.9%(分层管理)
中国芯片适配
- 全栈适配 7 个主流国产芯片平台(华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯、壁仞)
- 混合精度 W4A8 量化、高性能融合算子(Lightning Indexer、Sparse Flash Attention、MLAPO)
- 单节点国产芯片性能对标双卡国际集群,长序列场景部署成本降低 50%
主要结果
ARC 基准对比(Table 7 摘要)
| 基准 | GLM-5 | Claude Opus 4.5 | GPT-5.2 (xhigh) | Gemini 3 Pro |
|---|---|---|---|---|
| HLE (w/ Tools) | 50.4 | 43.4* | 45.5* | 45.8* |
| SWE-bench Verified | 77.8 | 80.9 | 80.0 | 76.2 |
| SWE-bench Multilingual | 73.3 | 77.5 | 72.0 | 65.0 |
| Terminal-Bench 2.0 | 60.7† | 59.3 | 54.0 | 54.2 |
| BrowseComp (w/ CM) | 75.9 | 57.8 | 65.8 | 59.2 |
| τ²-Bench | 89.7 | 91.6 | 85.5 | 90.7 |
| Vending-Bench 2 | $4,432 | $4,967 | $3,591 | $5,478 |
- Artificial Analysis Intelligence Index v4.0:GLM-5 得分 50,首次有开放权重模型达到此分数
- LMArena:Text Arena 和 Code Arena 双料开源第一
- 长时程任务:Vending-Bench 2 开源第一,CC-Bench-V2 显著超越 GLM-4.7
CC-Bench-V2(真实工程评估)
- 前端:构建成功率 98%(React/Vue/Svelte/Next.js),CSR 接近 Claude Opus 4.5
- 后端:85 个任务,6 种语言,Pass@1 为 25.8(与 Claude Opus 4.5 的 26.9 可比)
- 长时程:Repo Exploration 65.6%(超过 Claude Opus 4.5 的 64.5%),Chained Tasks 52.3%
SWE-rebench(持续更新的去污染评估)
- GLM-5 达 42.1% resolved rate,有效泛化到新的 SWE 问题
”Pony Alpha” 匿名发布
- GLM-5 以 “Pony Alpha” 名义匿名发布在 OpenRouter,社区猜测 25% 认为是 Claude Sonnet 5、20% 认为是 DeepSeek、10% 认为是 Grok
局限性
- 端到端任务完成率 (ISR) 差距:前端评估中 GLM-5 虽然 CSR 接近 Claude Opus 4.5,但在完整任务端到端完成率上仍有明显差距
- 长时程链式任务:CC-Bench-V2 的 Chained Tasks 中 GLM-5(52.3%)与 Claude Opus 4.5(61.6%)存在显著差距,错误会在链中累积
- 工具调用:Tool-Decathlon(39.2%)落后于 Claude Opus 4.5(43.5%)和 GPT-5.2(46.3%)
- 部分推理基准:GPQA-Diamond(86.0%)落后于 Gemini 3 Pro(91.9%)和 GPT-5.2(92.4%)
- SWE-rebench:42.1% 落后于 Claude Opus 4.6(52.9%)和 GPT-5.2(51.7%)
与相关工作的关系
- V3.2:GLM-5 架构上采用 DeepSeek 提出的 MLA 和 DSA,但在 Muon Split、MTP 参数共享等方面做了改进;DSA 适配仅需 20B tokens(vs DeepSeek-V3.2 的 943.7B)
- DeepSeek-R1:推理 RL 阶段借鉴 GRPO 算法并引入 IcePop 技术
- Claude Opus 4.5:主要对标模型,在多数基准上互有胜负
- GPT-5.2 (xhigh):在部分推理和工具调用基准上领先 GLM-5
- Kimi K2.5:开源竞品,在 HLE 等推理任务上略优于 GLM-5
- slime 框架:GLM-4.5 时期建立的统一后训练基础设施,GLM-5 进一步扩展其异步能力
- RepoLaunch / Harbor:Agent 环境构建的基础设施框架
综合判断
GLM-5 是目前开源权重模型中综合能力最强的之一,其核心贡献在于:(1)证明了从 vibe coding 到 agentic engineering 的范式转变在工程上可行;(2)通过 DSA 等技术实现了效率与性能的平衡;(3)建立了异步 Agent RL 的完整训练管线。但与顶级闭源模型相比,在端到端任务完成率和长时程链式任务上仍有差距,这也是未来研究的重点方向。