国产大模型演进

总览

本页串联 DeepSeek、Kimi、Qwen 三条国产大模型主线,梳理各系列的演进脉络、核心创新和交叉影响。时间截止 2026 年 4 月。

DeepSeek 系列

详细参见:DeepSeek 系列模型

  • DeepSeek LLM (2024.01):7B/67B 首代模型,提出 scaling law 研究(以 non-embedding FLOPs/token M 为核心指标),67B 超越 LLaMA-2 70B。
  • DeepSeek-V2:引入 MLA(Multi-head Latent Attention)和 DeepSeekMoE,奠定高效推理基础。
  • DeepSeek-V3:671B MoE / 37B 激活,FP8 训练,DualPipe 并行,辅助损失自由负载均衡,14.8T tokens,训练成本仅 $5.576M。
  • DeepSeek-V3.1:持续预训练增强。
  • DeepSeek-V3.2:引入 DSA(DeepSeek Sparse Attention + lightning indexer),GRPO 稳定性策略,thinking-in-tool-use,大规模 Agent 任务合成(1800+ 环境,85000+ prompts),Speciale IMO/IOI 金牌。
  • DeepSeek-R1:从 R1-Zero(纯 RL 无 SFT,GRPO + 规则奖励,aha moment 涌现)到 R1(冷启动数据 + 四阶段管线),证明 RL 可独立激发推理能力。蒸馏 6 个小型模型。

DeepSeek 线关键词:MLA、MoE 高效架构、FP8 训练、GRPO、纯 RL 推理涌现、Agent 合成。

Kimi 系列

详细参见:Kimi 系列模型

  • Kimi k1.5:128K 长上下文 RL 训练,partial rollouts,online mirror descent,long2short 蒸馏(四种方法),多模态 RL。
  • Kimi K2:1.04T MoE / 32B 激活,MuonClip 优化器(QK-Clip),sparsity scaling law(稀疏度 48 最优),大规模 Agent 数据合成(tool specs agents tasks trajectories),RLVR + self-critique 奖励,15.5T tokens。
  • Kimi K2.5:联合文本-视觉优化,zero-vision SFT,Agent Swarm/PARL,MoonViT-3D + NaViT,Toggle 高效 RL,DEP 解耦编码。
  • Kimi-VL:2.8B 激活 MoE VLM,MoonViT 原生分辨率,128K 上下文,Kimi-VL-Thinking 变体(long-CoT SFT + RL)。

Kimi 线关键词:长上下文 RL、MuonClip、稀疏度 scaling law、Agent 数据合成、联合多模态 RL、小参数高性能 VLM。

Qwen 系列

详细参见:Qwen3

  • Qwen3:Dense(0.6B-32B)+ MoE(30B-A3B, 235B-A22B)双架构,36T tokens / 119 种语言。
  • 统一思考/非思考模式:/think/no_think 双模式切换,thinking budget 机制的推理 token 预算控制。
  • Strong-to-weak distillation:大模型蒸馏小模型提升推理质量。
  • 四阶段后训练:长链 CoT 冷启动 推理 RL 思考模式融合 通用 RL。

Qwen 线关键词:统一思考模式、thinking budget、strong-to-weak distillation、Dense + MoE 双架构。

三条线的共同趋势

1. MoE 成为大模型主流架构

DeepSeek、Kimi、Qwen 三家均在旗舰模型中采用 MoE 架构,但各有侧重:

  • DeepSeek:DeepSeekMoE + auxiliary-loss-free load balancing
  • Kimi:K2 的 sparsity scaling law,K2.5 延续
  • Qwen3:Dense + MoE 双线并行

交叉参考:MoE 混合专家模型

2. 强化学习驱动推理能力

三条线均将 RL 作为推理能力训练的核心方法:

  • DeepSeek-R1:GRPO + 纯 RL 涌现
  • Kimi k1.5:online mirror descent + long context RL
  • Qwen3:推理 RL 作为四阶段管线之一

交叉参考:推理模型与强化学习

3. Agent 能力成为新焦点

从 K2 的 agent 数据合成到 K2.5 的 Agent Swarm,再到 DeepSeek-V3.2 的 thinking-in-tool-use,agent 能力已是模型的核心评测维度。

交叉参考:多模态 Agent

4. 推理效率优化

  • Long2short(Kimi k1.5)和 strong-to-weak distillation(Qwen3)均致力于将大模型推理能力压缩到更小/更快的推理模式。
  • Qwen3 的 unified thinking 和 thinking budget 提供了用户可控的推理深度。

关键对比点

维度DeepSeekKimiQwen3
MoE 架构DeepSeekMoE, 671B/37B1.04T/32B (K2), 2.8B (VL)30B-A3B, 235B-A22B
RL 方法GRPOOnline mirror descent推理 RL (四阶段)
推理模式专用推理模型 (R1)Long2short 蒸馏统一思考/非思考
多模态V3.2 agent visionK2.5 联合 RL, VL未公开 VL
Agent 能力环境合成 + tool useAgent Swarm/PARL未强调
训练规模14.8T tokens (V3)15.5T tokens (K2)36T tokens
特殊贡献MLA, FP8, R1-Zero 涌现MuonClip, sparsity lawThinking budget, dual-mode

我的思考:三条路线的深层逻辑

1. 为什么是这三家?

这不仅是”哪家技术更强”的问题。三家代表了三种不同的创新模式:

  • DeepSeek = 科学驱动。从 scaling law 研究到 R1-Zero 纯 RL 涌现,DeepSeek 的核心贡献是”发现新知识”。MLA、aux-loss-free MoE、GRPO——每一项都是原创性突破。这是”研究导向的工程”。

  • Kimi = 理论驱动。sparsity scaling law、MuonClip、Agent 数据合成管线——Kimi 的特色是”把工程问题转化为理论问题”。它不满足于”work”,还要知道”why it works”。这是”工程导向的研究”。

  • Qwen = 产品驱动。Dense+MoE 双线、thinking budget、119 种语言——Qwen3 的特色是”把技术做到可用的极致”。它的创新可能不如前两家耀眼,但覆盖面、易用性、部署生态是三者最优的。这是”产品导向的工程”。

三种模式没有高下之分——它们服务不同的目标。但如果你是一个研究者想要理解”大模型前沿的真正创新在哪里”,DeepSeek 是最值得细读的。

2. 他们互相抄袭了吗?

表面上看,三条线共享了大量概念:MoE、RL 推理、蒸馏、Agent。但”共享概念”不等于”抄袭”:

  • MoE 是行业共识(从 Mixtral 到 GPT-4 都有),三条线各做各的实现:aux-loss-free vs sparsity scaling law vs 双线并行。这是”同一问题的不同解法”。

  • RL 推理 也是行业共识。GRPO vs online mirror descent 是算法选择差异,不是谁抄谁。实际上,GRPO 是 DeepSeek 独立提出的,online mirror descent 是 Kimi 的独立选择。

  • 真正的独立贡献:R1-Zero 的纯 RL 涌现(DeepSeek)、sparsity scaling law(Kimi)、thinking budget(Qwen3)——这三个概念在对方的技术报告中没有出现,是真正的差异化创新。

3. 谁会赢?

这不是一个有意义的问题。“赢”的标准是什么?开源影响力(DeepSeek 领先)、Agent 能力(Kimi 领先)、部署规模和语言覆盖(Qwen3 领先)——不同维度上”赢家”不同。

更值得关注的是:三条线正在互相学习。Qwen3 的 thinking budget 可以被 DeepSeek-R2 吸收。Kimi 的 Agent 数据合成管线可以被 Qwen 采用。DeepSeek 的 aux-loss-free MoE 可以被 Kimi 借鉴。最终,三条线会收敛到一套”最佳实践集合”,而不是某一家完全胜出。

真正的”输家”可能是——没有参与这条赛道的模型。当三家都在快速迭代 MoE+RL+Agent 三位一体架构时,还在做 Dense LLM 的团队正在被拉开距离。

开放问题

  1. 哪条路线在 Agent 能力上更优?目前缺乏横向对比评测。
  2. MoE 的 scaling law(DeepSeek 和 Kimi 的结论是否一致)?
  3. 统一思考模式 vs 专用推理模型的长期优劣?
  4. 三家在 VL 能力上的对比尚未有全面评测。
  5. 开源策略的长期影响:DeepSeek 的开源是否会导致其技术优势被竞争对手更快吸收?