国产大模型技术路线比较
为什么这个比较重要
DeepSeek、Kimi、Qwen 三家代表了国产大模型的三种技术哲学。它们不是简单的”竞品关系”,而是在 MoE 架构、推理训练、Agent 能力三个核心问题上做出了不同的选择,形成了三条可互相印证又可互相质疑的技术路线。
理解这三条路线的分歧,就等于理解了 2025 年大模型前沿的核心张力。
一、架构选择:MoE 的三种实现路径
三家都选了 MoE,但”怎么 MoE”完全不同。
| 维度 | DeepSeek (V3) | Kimi (K2) | Qwen3 |
|---|---|---|---|
| 总/激参数 | 671B / 37B | 1.04T / 32B | 30B-A3B / 235B-A22B |
| 稀疏度 | ~5.5% | ~3.1% | ~10% / ~9.4% |
| 负载均衡 | aux-loss-free bias 动态调整 | 未详述 | 未详述 |
| 训练优化器 | FP8 混合精度 | MuonClip (QK-Clip anti-spike) | 未详述 |
| 并行策略 | DualPipe (计算-通信重叠) | 未强调 | 未详述 |
| 注意力机制 | MLA (高效 KV cache) | 标准注意力 | 未详述 |
| 是否 Dense 线 | 无(全 MoE) | 无(全 MoE) | 有(Dense+MoE 双线) |
深层判断
DeepSeek 的 MoE 是最”激进”的。它不仅选 MoE,还重构了整个架构栈:MLA 改注意力、aux-loss-free 改路由、FP8 改精度、DualPipe 改并行。这是一次”全栈重构”,不是简单地加几个专家。代价是架构复杂度极高,别人很难复现。
Kimi 的 MoE 是最”理论化”的。sparsity scaling law 是三家唯一公开研究”稀疏度到底多少最优”的工作。但这个理论选择(稀疏度 48 最优)与实际部署(稀疏度 ~32 即 3.1%)之间存在差距——说明工程约束(GPU 内存、通信带宽)让理论最优不可达。MuonClip 则解决了一个具体痛点:MoE 训练容易 loss spike。
Qwen3 的 MoE 是最”务实”的。Dense + MoE 双线意味着团队不把所有赌注押在 MoE 上。这看似保守,实际上降低了风险——如果 MoE 推理部署遇到瓶颈(需要加载全部专家到 GPU 显存),Dense 线仍然可用。
核心张力
all-in MoE vs 双线并行。DeepSeek 和 Kimi 把公司的旗舰模型完全建立在 MoE 之上,Qwen3 保留了 Dense 选项。这不仅是技术选择,也是对”MoE 是否能成为未来唯一架构”这个问题的不同下注。
二、推理训练:RL 的三种范式
三条线都把 RL 作为推理训练的核心,但 RL 怎么做、做到什么程度、最终产出的推理模型形态,完全不同。
范式对比
| 维度 | DeepSeek-R1 | Kimi k1.5 | Qwen3 |
|---|---|---|---|
| RL 算法 | GRPO | Online mirror descent | 推理 RL(细节未公开) |
| 是否需要 SFT | R1-Zero: 不需要 / R1: 需要 | 需要 | 需要(四阶段) |
| 核心创新 | 纯 RL 推理涌现 (aha moment) | 128K 长上下文 RL | 统一思考/非思考双模式 |
| 产出形态 | 专用推理模型 | 蒸馏到短推理模式 | 单模型双模式 |
| 蒸馏策略 | R1 蒸馏 6 个 dense 模型 | Long2short 四种方法 | Strong-to-weak |
| 涌现报告 | ✅ aha moment | ❌ 未报告 | ❌ 未报告 |
| 奖励信号 | 规则奖励(纯工程) | RLVR + self-critique | 未详述 |
深层判断
R1-Zero 的”纯 RL 涌现”是三家最重要的科学发现。它证明了推理行为可以不依赖人类示例(SFT)而自发涌现——这是对”推理需要人类教”这一假设的根本挑战。但它也有个问题:纯 RL 的语言流畅性差(中英混杂、可读性低),R1 最终还是加了冷启动 SFT。所以”纯 RL”更像是一次精彩的 proof of concept,而非实用方案。
k1.5 的 long2short 解决了 R1 没解决的问题。R1 产出一个专用推理模型,部署时必须接受长推理链的延迟和成本。k1.5 的四种蒸馏方法直接面向”如何让推理又快又好”的工程问题。这是实用主义对科学理想的胜利。
Qwen3 的 unified thinking 是对 R1 路线的最直接质疑。R1 说”推理需要专用模型”,Qwen3 说”不,一个模型就够了”。thinking budget 进一步赋予用户控制权——这在推理成本敏感的部署场景中很实用。
核心张力
专用推理 vs 统一双模式。这不仅是一个技术选择,更是一个产品哲学问题。专用推理(R1)的优势是推理能力极致,劣势是维护两套模型、用户需要选择用哪个。统一双模式(Qwen3)的优势是简洁、低成本、用户无感知切换,劣势是推理和非推理能力互相干扰的风险。
目前没有答案谁对谁错。两者的存在本身就是对这个问题的两种合理回答。
三、Agent 能力:后训练注入 vs 预训练内化
| 维度 | DeepSeek-V3.2 | Kimi K2/K2.5 | Qwen3 |
|---|---|---|---|
| Agent 训练方式 | 持续预训练 + 环境合成 | 数据合成管线 + SFT | 未强调 Agent |
| 环境/任务规模 | 1800+ 环境, 85000+ prompts | Tool specs → agents → tasks → trajectories | 未公开 |
| 多模态 Agent | V3.2 有 vision agent 能力 | K2.5: Agent Swarm + PARL | 无公开方案 |
| 核心机制 | thinking-in-tool-use | Self-critique + RLVR | 未强调 |
深层判断
Agent 正在从”Prompt Engineering 技巧”变成”模型原生能力”。三家都把 Agent 训练数据直接用于预训练或后训练,而不是依赖提示词组合。这是一个关键范式转移:就像 RLHF 把”对齐”从提示工程变成了训练目标,Agent 训练正在把”工具使用和规划”从提示工程变成训练目标。
Kimi 的 Agent 数据合成管线最系统化。四步自动化流水线(tool specs → agents → tasks → trajectories)如果有足够的工具定义多样性,理论上可以无限扩展 Agent 训练数据。DeepSeek 的 1800+ 环境合成也遵循相似逻辑。这两条线的共识很强:Agent 能力的瓶颈是”多样化训练数据”,而非”更好的提示词”。
Qwen3 在 Agent 上的缺席值得关注。这可能是战略选择(先做好推理再说 Agent),也可能是技术报告选择(Agent 不是 Qwen3 本次的卖点)。但无论如何,在 DeepSeek 和 Kimi 都强调 Agent 的 2025 年,Qwen 如果在下一版本不跟进,可能会掉队。
核心张力
Agent 是训练问题还是推理问题? 当前的做法(数据合成 + SFT/RL)倾向于”训练问题”——把 Agent 能力训练进模型参数。但也可以论证:如果基础模型的推理能力足够强(如 R1),Agent 行为可以在推理时通过提示词涌现,不需要专门训练。这是”训练派”和”推理派”在 Agent 问题上的根本分歧。
四、综合评判:三条路线的优势和风险
DeepSeek 路线
- 优势:科学贡献最大(R1-Zero 涌现、aux-loss-free MoE、MLA)。技术体系最完整、最有原创性。从基础架构到推理到 Agent,全栈自研。
- 风险:架构复杂度高,别人难复现意味自己也难 debug。全 MoE 路线的长期风险是如果 MoE 推理部署始终有瓶颈(GPU 显存无法加载所有专家),单次推理延迟可能成为劣势。
Kimi 路线
- 优势:理论驱动最鲜明(sparsity scaling law)。Agent 能力最系统(数据合成管线 + Agent Swarm)。多模态 Agent(K2.5)布局最早。
- 风险:科学突破性不如 DeepSeek(没有”首次发现”级别的贡献)。开源度最低(技术报告很多但代码和模型权重不如 DeepSeek 开放)。品牌认知度和社区生态弱于 DeepSeek。
Qwen 路线
- 优势:覆盖面最广(0.6B 到 235B,Dense + MoE)。实用创新最精准(thinking budget、unified thinking)。阿里云部署生态最完整。
- 风险:原创性最低(核心方法都是对已有路线的”改良”而非”开创”)。Agent 布局落后。技术细节的透明度最低(报告最短,细节最少)。
五、四个开放问题
-
MoE 是过渡方案还是终局? 当模型参数继续增长(10T+),稀疏度将逼近物理极限(GPU 内存和通信带宽)。MoE 架构本身是否会成为瓶颈?
-
推理能力的上限在哪里? R1-Zero 证明纯 RL 能涌现推理。如果再推 10 倍 RL 训练,推理能力是否持续提升?还是存在某个天花板?
-
Agent 能力能否跨模型迁移? 当前的 Agent 训练都是模型特定的。如果未来想复用 Agent 能力(像复用预训练权重一样),需要什么样的架构抽象?
-
开源 vs 闭源对生态的影响? DeepSeek 的开源策略赢得了巨大社区,Kimi 的相对封闭是否会成为长期劣势?
相关页面
- 国产大模型演进 — 主题总览
- MoE 混合专家模型 — MoE 架构对比
- 推理模型与强化学习 — 推理 RL 对比
- 多模态 Agent — Agent 能力对比
- DeepSeek 系列模型
- Kimi 系列模型
- Qwen3