国产大模型演进

总览

本页串联 DeepSeek、Kimi、Qwen 三条国产大模型主线，梳理各系列的演进脉络、核心创新和交叉影响。时间截止 2026 年 4 月。

DeepSeek 系列

详细参见：DeepSeek 系列模型

DeepSeek LLM (2024.01)：7B/67B 首代模型，提出 scaling law 研究（以 non-embedding FLOPs/token M 为核心指标），67B 超越 LLaMA-2 70B。
DeepSeek-V2：引入 MLA（Multi-head Latent Attention）和 DeepSeekMoE，奠定高效推理基础。
DeepSeek-V3：671B MoE / 37B 激活，FP8 训练，DualPipe 并行，辅助损失自由负载均衡，14.8T tokens，训练成本仅 $5.576M。
DeepSeek-V3.1：持续预训练增强。
DeepSeek-V3.2：引入 DSA（DeepSeek Sparse Attention + lightning indexer），GRPO 稳定性策略，thinking-in-tool-use，大规模 Agent 任务合成（1800+ 环境，85000+ prompts），Speciale IMO/IOI 金牌。
DeepSeek-R1：从 R1-Zero（纯 RL 无 SFT，GRPO + 规则奖励，aha moment 涌现）到 R1（冷启动数据 + 四阶段管线），证明 RL 可独立激发推理能力。蒸馏 6 个小型模型。

DeepSeek 线关键词：MLA、MoE 高效架构、FP8 训练、GRPO、纯 RL 推理涌现、Agent 合成。

Kimi 系列

详细参见：Kimi 系列模型

Kimi k1.5：128K 长上下文 RL 训练，partial rollouts，online mirror descent，long2short 蒸馏（四种方法），多模态 RL。
Kimi K2：1.04T MoE / 32B 激活，MuonClip 优化器（QK-Clip），sparsity scaling law（稀疏度 48 最优），大规模 Agent 数据合成（tool specs → agents → tasks → trajectories），RLVR + self-critique 奖励，15.5T tokens。
Kimi K2.5：联合文本-视觉优化，zero-vision SFT，Agent Swarm/PARL，MoonViT-3D + NaViT，Toggle 高效 RL，DEP 解耦编码。
Kimi-VL：2.8B 激活 MoE VLM，MoonViT 原生分辨率，128K 上下文，Kimi-VL-Thinking 变体（long-CoT SFT + RL）。

Kimi 线关键词：长上下文 RL、MuonClip、稀疏度 scaling law、Agent 数据合成、联合多模态 RL、小参数高性能 VLM。

Qwen 系列

详细参见：Qwen3

Qwen3：Dense（0.6B-32B）+ MoE（30B-A3B, 235B-A22B）双架构，36T tokens / 119 种语言。
统一思考/非思考模式：/think 和 /no_think 双模式切换，thinking budget 机制的推理 token 预算控制。
Strong-to-weak distillation：大模型蒸馏小模型提升推理质量。
四阶段后训练：长链 CoT 冷启动 → 推理 RL → 思考模式融合 → 通用 RL。

Qwen 线关键词：统一思考模式、thinking budget、strong-to-weak distillation、Dense + MoE 双架构。

三条线的共同趋势

1. MoE 成为大模型主流架构

DeepSeek、Kimi、Qwen 三家均在旗舰模型中采用 MoE 架构，但各有侧重：

DeepSeek：DeepSeekMoE + auxiliary-loss-free load balancing
Kimi：K2 的 sparsity scaling law，K2.5 延续
Qwen3：Dense + MoE 双线并行

交叉参考：MoE 混合专家模型

2. 强化学习驱动推理能力

三条线均将 RL 作为推理能力训练的核心方法：

DeepSeek-R1：GRPO + 纯 RL 涌现
Kimi k1.5：online mirror descent + long context RL
Qwen3：推理 RL 作为四阶段管线之一

交叉参考：推理模型与强化学习

3. Agent 能力成为新焦点

从 K2 的 agent 数据合成到 K2.5 的 Agent Swarm，再到 DeepSeek-V3.2 的 thinking-in-tool-use，agent 能力已是模型的核心评测维度。

交叉参考：多模态 Agent

4. 推理效率优化

Long2short（Kimi k1.5）和 strong-to-weak distillation（Qwen3）均致力于将大模型推理能力压缩到更小/更快的推理模式。
Qwen3 的 unified thinking 和 thinking budget 提供了用户可控的推理深度。

关键对比点

维度	DeepSeek	Kimi	Qwen3
MoE 架构	DeepSeekMoE, 671B/37B	1.04T/32B (K2), 2.8B (VL)	30B-A3B, 235B-A22B
RL 方法	GRPO	Online mirror descent	推理 RL (四阶段)
推理模式	专用推理模型 (R1)	Long2short 蒸馏	统一思考/非思考
多模态	V3.2 agent vision	K2.5 联合 RL, VL	未公开 VL
Agent 能力	环境合成 + tool use	Agent Swarm/PARL	未强调
训练规模	14.8T tokens (V3)	15.5T tokens (K2)	36T tokens
特殊贡献	MLA, FP8, R1-Zero 涌现	MuonClip, sparsity law	Thinking budget, dual-mode

我的思考：三条路线的深层逻辑

1. 为什么是这三家？

这不仅是”哪家技术更强”的问题。三家代表了三种不同的创新模式：

DeepSeek = 科学驱动。从 scaling law 研究到 R1-Zero 纯 RL 涌现，DeepSeek 的核心贡献是”发现新知识”。MLA、aux-loss-free MoE、GRPO——每一项都是原创性突破。这是”研究导向的工程”。
Kimi = 理论驱动。sparsity scaling law、MuonClip、Agent 数据合成管线——Kimi 的特色是”把工程问题转化为理论问题”。它不满足于”work”，还要知道”why it works”。这是”工程导向的研究”。
Qwen = 产品驱动。Dense+MoE 双线、thinking budget、119 种语言——Qwen3 的特色是”把技术做到可用的极致”。它的创新可能不如前两家耀眼，但覆盖面、易用性、部署生态是三者最优的。这是”产品导向的工程”。

三种模式没有高下之分——它们服务不同的目标。但如果你是一个研究者想要理解”大模型前沿的真正创新在哪里”，DeepSeek 是最值得细读的。

2. 他们互相抄袭了吗？

表面上看，三条线共享了大量概念：MoE、RL 推理、蒸馏、Agent。但”共享概念”不等于”抄袭”：

MoE 是行业共识（从 Mixtral 到 GPT-4 都有），三条线各做各的实现：aux-loss-free vs sparsity scaling law vs 双线并行。这是”同一问题的不同解法”。
RL 推理 也是行业共识。GRPO vs online mirror descent 是算法选择差异，不是谁抄谁。实际上，GRPO 是 DeepSeek 独立提出的，online mirror descent 是 Kimi 的独立选择。
真正的独立贡献：R1-Zero 的纯 RL 涌现（DeepSeek）、sparsity scaling law（Kimi）、thinking budget（Qwen3）——这三个概念在对方的技术报告中没有出现，是真正的差异化创新。

3. 谁会赢？

这不是一个有意义的问题。“赢”的标准是什么？开源影响力（DeepSeek 领先）、Agent 能力（Kimi 领先）、部署规模和语言覆盖（Qwen3 领先）——不同维度上”赢家”不同。

更值得关注的是：三条线正在互相学习。Qwen3 的 thinking budget 可以被 DeepSeek-R2 吸收。Kimi 的 Agent 数据合成管线可以被 Qwen 采用。DeepSeek 的 aux-loss-free MoE 可以被 Kimi 借鉴。最终，三条线会收敛到一套”最佳实践集合”，而不是某一家完全胜出。

真正的”输家”可能是——没有参与这条赛道的模型。当三家都在快速迭代 MoE+RL+Agent 三位一体架构时，还在做 Dense LLM 的团队正在被拉开距离。

开放问题

哪条路线在 Agent 能力上更优？目前缺乏横向对比评测。
MoE 的 scaling law（DeepSeek 和 Kimi 的结论是否一致）？
统一思考模式 vs 专用推理模型的长期优劣？
三家在 VL 能力上的对比尚未有全面评测。
开源策略的长期影响：DeepSeek 的开源是否会导致其技术优势被竞争对手更快吸收？

Blog1

探索

国产大模型演进

国产大模型演进

总览

DeepSeek 系列

Kimi 系列

Qwen 系列

三条线的共同趋势

1. MoE 成为大模型主流架构

2. 强化学习驱动推理能力

3. Agent 能力成为新焦点

4. 推理效率优化

关键对比点

我的思考：三条路线的深层逻辑

1. 为什么是这三家？

2. 他们互相抄袭了吗？

3. 谁会赢？

开放问题

关系图谱

目录

反向链接