国产大模型演进
总览
本页串联 DeepSeek、Kimi、Qwen 三条国产大模型主线,梳理各系列的演进脉络、核心创新和交叉影响。时间截止 2026 年 4 月。
DeepSeek 系列
详细参见:DeepSeek 系列模型
- DeepSeek LLM (2024.01):7B/67B 首代模型,提出 scaling law 研究(以 non-embedding FLOPs/token M 为核心指标),67B 超越 LLaMA-2 70B。
- DeepSeek-V2:引入 MLA(Multi-head Latent Attention)和 DeepSeekMoE,奠定高效推理基础。
- DeepSeek-V3:671B MoE / 37B 激活,FP8 训练,DualPipe 并行,辅助损失自由负载均衡,14.8T tokens,训练成本仅 $5.576M。
- DeepSeek-V3.1:持续预训练增强。
- DeepSeek-V3.2:引入 DSA(DeepSeek Sparse Attention + lightning indexer),GRPO 稳定性策略,thinking-in-tool-use,大规模 Agent 任务合成(1800+ 环境,85000+ prompts),Speciale IMO/IOI 金牌。
- DeepSeek-R1:从 R1-Zero(纯 RL 无 SFT,GRPO + 规则奖励,aha moment 涌现)到 R1(冷启动数据 + 四阶段管线),证明 RL 可独立激发推理能力。蒸馏 6 个小型模型。
DeepSeek 线关键词:MLA、MoE 高效架构、FP8 训练、GRPO、纯 RL 推理涌现、Agent 合成。
Kimi 系列
详细参见:Kimi 系列模型
- Kimi k1.5:128K 长上下文 RL 训练,partial rollouts,online mirror descent,long2short 蒸馏(四种方法),多模态 RL。
- Kimi K2:1.04T MoE / 32B 激活,MuonClip 优化器(QK-Clip),sparsity scaling law(稀疏度 48 最优),大规模 Agent 数据合成(tool specs → agents → tasks → trajectories),RLVR + self-critique 奖励,15.5T tokens。
- Kimi K2.5:联合文本-视觉优化,zero-vision SFT,Agent Swarm/PARL,MoonViT-3D + NaViT,Toggle 高效 RL,DEP 解耦编码。
- Kimi-VL:2.8B 激活 MoE VLM,MoonViT 原生分辨率,128K 上下文,Kimi-VL-Thinking 变体(long-CoT SFT + RL)。
Kimi 线关键词:长上下文 RL、MuonClip、稀疏度 scaling law、Agent 数据合成、联合多模态 RL、小参数高性能 VLM。
Qwen 系列
详细参见:Qwen3
- Qwen3:Dense(0.6B-32B)+ MoE(30B-A3B, 235B-A22B)双架构,36T tokens / 119 种语言。
- 统一思考/非思考模式:
/think和/no_think双模式切换,thinking budget 机制的推理 token 预算控制。 - Strong-to-weak distillation:大模型蒸馏小模型提升推理质量。
- 四阶段后训练:长链 CoT 冷启动 → 推理 RL → 思考模式融合 → 通用 RL。
Qwen 线关键词:统一思考模式、thinking budget、strong-to-weak distillation、Dense + MoE 双架构。
三条线的共同趋势
1. MoE 成为大模型主流架构
DeepSeek、Kimi、Qwen 三家均在旗舰模型中采用 MoE 架构,但各有侧重:
- DeepSeek:DeepSeekMoE + auxiliary-loss-free load balancing
- Kimi:K2 的 sparsity scaling law,K2.5 延续
- Qwen3:Dense + MoE 双线并行
交叉参考:MoE 混合专家模型
2. 强化学习驱动推理能力
三条线均将 RL 作为推理能力训练的核心方法:
- DeepSeek-R1:GRPO + 纯 RL 涌现
- Kimi k1.5:online mirror descent + long context RL
- Qwen3:推理 RL 作为四阶段管线之一
交叉参考:推理模型与强化学习
3. Agent 能力成为新焦点
从 K2 的 agent 数据合成到 K2.5 的 Agent Swarm,再到 DeepSeek-V3.2 的 thinking-in-tool-use,agent 能力已是模型的核心评测维度。
交叉参考:多模态 Agent
4. 推理效率优化
- Long2short(Kimi k1.5)和 strong-to-weak distillation(Qwen3)均致力于将大模型推理能力压缩到更小/更快的推理模式。
- Qwen3 的 unified thinking 和 thinking budget 提供了用户可控的推理深度。
关键对比点
| 维度 | DeepSeek | Kimi | Qwen3 |
|---|---|---|---|
| MoE 架构 | DeepSeekMoE, 671B/37B | 1.04T/32B (K2), 2.8B (VL) | 30B-A3B, 235B-A22B |
| RL 方法 | GRPO | Online mirror descent | 推理 RL (四阶段) |
| 推理模式 | 专用推理模型 (R1) | Long2short 蒸馏 | 统一思考/非思考 |
| 多模态 | V3.2 agent vision | K2.5 联合 RL, VL | 未公开 VL |
| Agent 能力 | 环境合成 + tool use | Agent Swarm/PARL | 未强调 |
| 训练规模 | 14.8T tokens (V3) | 15.5T tokens (K2) | 36T tokens |
| 特殊贡献 | MLA, FP8, R1-Zero 涌现 | MuonClip, sparsity law | Thinking budget, dual-mode |
我的思考:三条路线的深层逻辑
1. 为什么是这三家?
这不仅是”哪家技术更强”的问题。三家代表了三种不同的创新模式:
-
DeepSeek = 科学驱动。从 scaling law 研究到 R1-Zero 纯 RL 涌现,DeepSeek 的核心贡献是”发现新知识”。MLA、aux-loss-free MoE、GRPO——每一项都是原创性突破。这是”研究导向的工程”。
-
Kimi = 理论驱动。sparsity scaling law、MuonClip、Agent 数据合成管线——Kimi 的特色是”把工程问题转化为理论问题”。它不满足于”work”,还要知道”why it works”。这是”工程导向的研究”。
-
Qwen = 产品驱动。Dense+MoE 双线、thinking budget、119 种语言——Qwen3 的特色是”把技术做到可用的极致”。它的创新可能不如前两家耀眼,但覆盖面、易用性、部署生态是三者最优的。这是”产品导向的工程”。
三种模式没有高下之分——它们服务不同的目标。但如果你是一个研究者想要理解”大模型前沿的真正创新在哪里”,DeepSeek 是最值得细读的。
2. 他们互相抄袭了吗?
表面上看,三条线共享了大量概念:MoE、RL 推理、蒸馏、Agent。但”共享概念”不等于”抄袭”:
-
MoE 是行业共识(从 Mixtral 到 GPT-4 都有),三条线各做各的实现:aux-loss-free vs sparsity scaling law vs 双线并行。这是”同一问题的不同解法”。
-
RL 推理 也是行业共识。GRPO vs online mirror descent 是算法选择差异,不是谁抄谁。实际上,GRPO 是 DeepSeek 独立提出的,online mirror descent 是 Kimi 的独立选择。
-
真正的独立贡献:R1-Zero 的纯 RL 涌现(DeepSeek)、sparsity scaling law(Kimi)、thinking budget(Qwen3)——这三个概念在对方的技术报告中没有出现,是真正的差异化创新。
3. 谁会赢?
这不是一个有意义的问题。“赢”的标准是什么?开源影响力(DeepSeek 领先)、Agent 能力(Kimi 领先)、部署规模和语言覆盖(Qwen3 领先)——不同维度上”赢家”不同。
更值得关注的是:三条线正在互相学习。Qwen3 的 thinking budget 可以被 DeepSeek-R2 吸收。Kimi 的 Agent 数据合成管线可以被 Qwen 采用。DeepSeek 的 aux-loss-free MoE 可以被 Kimi 借鉴。最终,三条线会收敛到一套”最佳实践集合”,而不是某一家完全胜出。
真正的”输家”可能是——没有参与这条赛道的模型。当三家都在快速迭代 MoE+RL+Agent 三位一体架构时,还在做 Dense LLM 的团队正在被拉开距离。
开放问题
- 哪条路线在 Agent 能力上更优?目前缺乏横向对比评测。
- MoE 的 scaling law(DeepSeek 和 Kimi 的结论是否一致)?
- 统一思考模式 vs 专用推理模型的长期优劣?
- 三家在 VL 能力上的对比尚未有全面评测。
- 开源策略的长期影响:DeepSeek 的开源是否会导致其技术优势被竞争对手更快吸收?