DeepSeek-Coder-V2 代码智能

核心结论

DeepSeek-Coder-V2 是在 DeepSeek-V2 checkpoint 基础上额外预训练 6T tokens 的 MoE 代码语言模型,在代码和数学任务上达到 GPT4-Turbo 级别性能。开源模型中首次对标闭源代码模型(Claude 3 Opus、Gemini 1.5 Pro)。编程语言从 86 扩展到 338 种,上下文从 16K 扩展到 128K。

关键事实

  • 作者:DeepSeek-AI(Qihao Zhu、Daya Guo 等核心贡献者),2024 年 6 月
  • 基础:DeepSeek-V2 中间 checkpoint + 6T tokens 继续预训练
  • 架构:与 V2 相同的 MoE 架构(MLA + DeepSeekMoE),236B 总/21B 激活
  • 编程语言:从 DeepSeek-Coder-33B 的 86 种扩展到 338 种
  • 增强能力:编码 + 数学推理 + 通用语言(同时保持 V2 基础能力)
  • 开源权重完整发布

方法或论证路径

  • 数据混合:高质量代码语料(多语言源码) + 数学推理数据 + 通用数据
  • 继续预训练:在 V2 基础上进行额外的代码/数学密集型预训练
  • 评估:HumanEval、MBPP、LiveCodeBench(代码)、GSM8K、MATH(数学)上对标 GPT4-Turbo
  • 消融:展示代码数据比例对通用能力的 trade-off

与现有 Wiki 的关系

后续问题

  • 338 种编程语言的覆盖面有多广?低频语言的训练充分性如何?
  • Coder-V2 与通用 V2 之间的蒸馏或知识共享机制