国产大模型技术路线比较

为什么这个比较重要

DeepSeek、Kimi、Qwen 三家代表了国产大模型的三种技术哲学。它们不是简单的”竞品关系”，而是在 MoE 架构、推理训练、Agent 能力三个核心问题上做出了不同的选择，形成了三条可互相印证又可互相质疑的技术路线。

理解这三条路线的分歧，就等于理解了 2025 年大模型前沿的核心张力。

一、架构选择：MoE 的三种实现路径

三家都选了 MoE，但”怎么 MoE”完全不同。

维度	DeepSeek (V3)	Kimi (K2)	Qwen3
总/激参数	671B / 37B	1.04T / 32B	30B-A3B / 235B-A22B
稀疏度	~5.5%	~3.1%	~10% / ~9.4%
负载均衡	aux-loss-free bias 动态调整	未详述	未详述
训练优化器	FP8 混合精度	MuonClip (QK-Clip anti-spike)	未详述
并行策略	DualPipe (计算-通信重叠)	未强调	未详述
注意力机制	MLA (高效 KV cache)	标准注意力	未详述
是否 Dense 线	无（全 MoE）	无（全 MoE）	有（Dense+MoE 双线）

深层判断

DeepSeek 的 MoE 是最”激进”的。它不仅选 MoE，还重构了整个架构栈：MLA 改注意力、aux-loss-free 改路由、FP8 改精度、DualPipe 改并行。这是一次”全栈重构”，不是简单地加几个专家。代价是架构复杂度极高，别人很难复现。

Kimi 的 MoE 是最”理论化”的。sparsity scaling law 是三家唯一公开研究”稀疏度到底多少最优”的工作。但这个理论选择（稀疏度 48 最优）与实际部署（稀疏度 ~32 即 3.1%）之间存在差距——说明工程约束（GPU 内存、通信带宽）让理论最优不可达。MuonClip 则解决了一个具体痛点：MoE 训练容易 loss spike。

Qwen3 的 MoE 是最”务实”的。Dense + MoE 双线意味着团队不把所有赌注押在 MoE 上。这看似保守，实际上降低了风险——如果 MoE 推理部署遇到瓶颈（需要加载全部专家到 GPU 显存），Dense 线仍然可用。

核心张力

all-in MoE vs 双线并行。DeepSeek 和 Kimi 把公司的旗舰模型完全建立在 MoE 之上，Qwen3 保留了 Dense 选项。这不仅是技术选择，也是对”MoE 是否能成为未来唯一架构”这个问题的不同下注。

二、推理训练：RL 的三种范式

三条线都把 RL 作为推理训练的核心，但 RL 怎么做、做到什么程度、最终产出的推理模型形态，完全不同。

范式对比

维度	DeepSeek-R1	Kimi k1.5	Qwen3
RL 算法	GRPO	Online mirror descent	推理 RL（细节未公开）
是否需要 SFT	R1-Zero: 不需要 / R1: 需要	需要	需要（四阶段）
核心创新	纯 RL 推理涌现 (aha moment)	128K 长上下文 RL	统一思考/非思考双模式
产出形态	专用推理模型	蒸馏到短推理模式	单模型双模式
蒸馏策略	R1 蒸馏 6 个 dense 模型	Long2short 四种方法	Strong-to-weak
涌现报告	✅ aha moment	❌ 未报告	❌ 未报告
奖励信号	规则奖励（纯工程）	RLVR + self-critique	未详述

深层判断

R1-Zero 的”纯 RL 涌现”是三家最重要的科学发现。它证明了推理行为可以不依赖人类示例（SFT）而自发涌现——这是对”推理需要人类教”这一假设的根本挑战。但它也有个问题：纯 RL 的语言流畅性差（中英混杂、可读性低），R1 最终还是加了冷启动 SFT。所以”纯 RL”更像是一次精彩的 proof of concept，而非实用方案。

k1.5 的 long2short 解决了 R1 没解决的问题。R1 产出一个专用推理模型，部署时必须接受长推理链的延迟和成本。k1.5 的四种蒸馏方法直接面向”如何让推理又快又好”的工程问题。这是实用主义对科学理想的胜利。

Qwen3 的 unified thinking 是对 R1 路线的最直接质疑。R1 说”推理需要专用模型”，Qwen3 说”不，一个模型就够了”。thinking budget 进一步赋予用户控制权——这在推理成本敏感的部署场景中很实用。

核心张力

专用推理 vs 统一双模式。这不仅是一个技术选择，更是一个产品哲学问题。专用推理（R1）的优势是推理能力极致，劣势是维护两套模型、用户需要选择用哪个。统一双模式（Qwen3）的优势是简洁、低成本、用户无感知切换，劣势是推理和非推理能力互相干扰的风险。

目前没有答案谁对谁错。两者的存在本身就是对这个问题的两种合理回答。

三、Agent 能力：后训练注入 vs 预训练内化

维度	DeepSeek-V3.2	Kimi K2/K2.5	Qwen3
Agent 训练方式	持续预训练 + 环境合成	数据合成管线 + SFT	未强调 Agent
环境/任务规模	1800+ 环境, 85000+ prompts	Tool specs → agents → tasks → trajectories	未公开
多模态 Agent	V3.2 有 vision agent 能力	K2.5: Agent Swarm + PARL	无公开方案
核心机制	thinking-in-tool-use	Self-critique + RLVR	未强调

深层判断

Agent 正在从”Prompt Engineering 技巧”变成”模型原生能力”。三家都把 Agent 训练数据直接用于预训练或后训练，而不是依赖提示词组合。这是一个关键范式转移：就像 RLHF 把”对齐”从提示工程变成了训练目标，Agent 训练正在把”工具使用和规划”从提示工程变成训练目标。

Kimi 的 Agent 数据合成管线最系统化。四步自动化流水线（tool specs → agents → tasks → trajectories）如果有足够的工具定义多样性，理论上可以无限扩展 Agent 训练数据。DeepSeek 的 1800+ 环境合成也遵循相似逻辑。这两条线的共识很强：Agent 能力的瓶颈是”多样化训练数据”，而非”更好的提示词”。

Qwen3 在 Agent 上的缺席值得关注。这可能是战略选择（先做好推理再说 Agent），也可能是技术报告选择（Agent 不是 Qwen3 本次的卖点）。但无论如何，在 DeepSeek 和 Kimi 都强调 Agent 的 2025 年，Qwen 如果在下一版本不跟进，可能会掉队。

核心张力

Agent 是训练问题还是推理问题？ 当前的做法（数据合成 + SFT/RL）倾向于”训练问题”——把 Agent 能力训练进模型参数。但也可以论证：如果基础模型的推理能力足够强（如 R1），Agent 行为可以在推理时通过提示词涌现，不需要专门训练。这是”训练派”和”推理派”在 Agent 问题上的根本分歧。

四、综合评判：三条路线的优势和风险

DeepSeek 路线

优势：科学贡献最大（R1-Zero 涌现、aux-loss-free MoE、MLA）。技术体系最完整、最有原创性。从基础架构到推理到 Agent，全栈自研。
风险：架构复杂度高，别人难复现意味自己也难 debug。全 MoE 路线的长期风险是如果 MoE 推理部署始终有瓶颈（GPU 显存无法加载所有专家），单次推理延迟可能成为劣势。

Kimi 路线

优势：理论驱动最鲜明（sparsity scaling law）。Agent 能力最系统（数据合成管线 + Agent Swarm）。多模态 Agent（K2.5）布局最早。
风险：科学突破性不如 DeepSeek（没有”首次发现”级别的贡献）。开源度最低（技术报告很多但代码和模型权重不如 DeepSeek 开放）。品牌认知度和社区生态弱于 DeepSeek。

Qwen 路线

优势：覆盖面最广（0.6B 到 235B，Dense + MoE）。实用创新最精准（thinking budget、unified thinking）。阿里云部署生态最完整。
风险：原创性最低（核心方法都是对已有路线的”改良”而非”开创”）。Agent 布局落后。技术细节的透明度最低（报告最短，细节最少）。

五、四个开放问题

MoE 是过渡方案还是终局？ 当模型参数继续增长（10T+），稀疏度将逼近物理极限（GPU 内存和通信带宽）。MoE 架构本身是否会成为瓶颈？
推理能力的上限在哪里？ R1-Zero 证明纯 RL 能涌现推理。如果再推 10 倍 RL 训练，推理能力是否持续提升？还是存在某个天花板？
Agent 能力能否跨模型迁移？ 当前的 Agent 训练都是模型特定的。如果未来想复用 Agent 能力（像复用预训练权重一样），需要什么样的架构抽象？
开源 vs 闭源对生态的影响？ DeepSeek 的开源策略赢得了巨大社区，Kimi 的相对封闭是否会成为长期劣势？

Blog1

探索

国产大模型技术路线比较

国产大模型技术路线比较

为什么这个比较重要

一、架构选择：MoE 的三种实现路径

深层判断

核心张力

二、推理训练：RL 的三种范式

范式对比

深层判断

核心张力

三、Agent 能力：后训练注入 vs 预训练内化

深层判断

核心张力

四、综合评判：三条路线的优势和风险

DeepSeek 路线

Kimi 路线

Qwen 路线

五、四个开放问题

相关页面

关系图谱

目录

反向链接