DeepSeek LLM: 开源语言模型与长期主义

核心结论

  • 这是 DeepSeek 系列的第一篇公开论文,介绍了 DeepSeek LLM 7B 和 67B 模型,标志着 DeepSeek 正式进入开源 LLM 领域。
  • 系统性研究了 scaling laws,提出使用非嵌入 FLOPs/token(M)替代传统的参数量 N 来表示模型规模,从而获得更精确的扩展规律。
  • 发现数据质量显著影响最优模型/数据分配策略:数据质量越高,越应该将更多计算预算分配给模型规模扩展。
  • DeepSeek LLM 67B 在代码、数学和推理方面超越 LLaMA-2 70B,Chat 版本在开放式评估中优于 GPT-3.5。

关键事实

  • 预训练数据:2 万亿 token,中英文为主。
  • 模型架构:大体沿用 LLaMA 设计(Pre-Norm RMSNorm、SwiGLU、RoPE),70B 模型使用 GQA。
  • 优化器:AdamW,采用多步学习率调度器(替代余弦调度器)以便于持续训练。
  • SFT 使用超过 100 万实例,DPO 用于提升对话性能。
  • 训练框架:HAI-LLM,集成数据并行、张量并行、序列并行、流水线并行和 FlashAttention。

与现有 Wiki 的关系

  • 关联:DeepSeek 系列模型国产大模型演进
  • 这是 DeepSeek 系列的开端,后续 V2、V3、V3.2、R1 均在此基础上演进。
  • 其中的 scaling laws 研究为后续模型的参数/数据分配提供了理论基础。

可能的矛盾或待核实点

  • 论文中不同数据集上拟合的 scaling laws 存在显著差异,scaling laws 的跨数据集泛化性仍需验证。

后续问题

  • scaling laws 在多模态和 MoE 架构下是否仍然适用?