The Llama 3 Herd of Models
核心结论
- 发布 Llama 3 系列(8B、70B、405B),是 Meta 迄今为止规模最大、能力最强的基础语言模型,原生支持多语言、代码、推理和工具使用。
- 最大模型是 405B 的 dense Transformer,128K token 上下文窗口,在与 GPT-4 等领先模型的竞争中表现相当。
- 提出三个关键杠杆:数据(预训练数据 15T token vs Llama 2 的 1.8T)、规模(计算量是 Llama 2 最大的 50 倍)、管理复杂度(选择简单架构而非 MoE)。
- 小模型(8B、70B)被系统性过度训练(train beyond compute-optimal),以在推理成本范围内最大化性能。
关键方法或创新点
- 预训练:15.6T 多语言 token,使用 dense Transformer + RoPE + Grouped Query Attention (GQA)。
- 后训练策略:SFT + Rejection Sampling + DPO(Direct Preference Optimization),故意避开更复杂的 RLHF 算法以保持稳定性和可扩展性。
- 多阶段训练:依次训练代码、推理、长上下文等能力。
- 工具使用:内置支持搜索、代码执行等工具调用。
- 通过组合方式(compositional approach)将图像、视频、语音能力集成到 Llama 3 中。
与现有 Wiki 的关系
局限或注意事项
- 405B Dense 模型的推理成本仍然很高。
- 多模态能力通过组合方式接入(而非端到端统一训练),可能不如 GPT-4o 的全模态方法高效。
- 论文未充分讨论训练数据的版权和隐私问题。