The Llama 3 Herd of Models

一句话总结：本文介绍了 Llama 3 系列模型，包括 8B、70B 和 405B 参数量级，原生支持多语言、代码、推理和工具使用，最大模型在多项任务上与 GPT-4 性能相当。论文特别强调了数据、规模、复杂度管理三个核心杠杆，并采用标准 Dense Transformer 架构配合 SFT + Rejection Sampling + DPO 的简洁后训练方案。

Intro

Motivation

在 Llama 和 Llama 2 成功的基础上，Meta 团队的目标是构建一个更大、更强、能力更全面的开源基础模型，在保持开源可复现的前提下，与 GPT-4 等级别的闭源模型竞争。

核心设计哲学

Llama 3 有三个核心杠杆：

数据（Data）：相比 Llama 2 的 1.8T tokens，Llama 3 使用了约 15T 的多语言 tokens 进行预训练，大幅提升了数量和质量。预训练数据的处理和筛选流水线更细致，后训练阶段发展了更严格的质量保证和过滤方法。
规模（Scale）：旗舰 405B 模型使用 3.8e25 FLOPs 进行预训练，几乎是 Llama 2 最大版本训练计算量的 50 倍。模型在 15.6T 文本 tokens 上训练。根据 scaling law，405B 是近似计算最优的模型大小。同时，较小模型（8B、70B）的训练量远超计算最优——这种”过度训练”使它们在相同推理预算下性能更好。
复杂度管理（Managing Complexity）：刻意选择标准 Dense Transformer（而非 MoE）以保证训练稳定性；后训练采用 SFT + Rejection Sampling + DPO，而非更复杂的 RL 算法，降低调参难度。

贡献

Llama 3 系列：8B、70B、405B 三个规模，多语言、长上下文、工具使用
405B 与 GPT-4 持平：在大量基准上 405B Instruct 与 GPT-4 性能相当
小模型的最佳性能：8B 和 70B 在同参数量级中领先
多模态能力：通过组合式方法（compositional approach）将图像、视频和语音能力集成
安全改进：Llama Guard 3 输入输出安全模型
全面的开源：预训练和后训练 405B 版本均公开发布

Method 核心方法

1. 模型架构

标准 Dense Transformer（decoder-only），刻意不采用 MoE

Figure 1: Llama 3 的整体架构与训练流程。Llama 3 是标准的 Transformer 语言模型，通过预测下一个 token 进行训练。

上下文窗口：最高 128K tokens
在 Llama 2 架构基础上做了微小调整

2. 预训练

数据规模：约 15T 多语言 tokens（Llama 2 的 8 倍+）

Figure 2: 缩放定律 IsoFLOP 曲线。在 6x10^18 到 10^22 FLOPs 的计算预算下，loss 随模型大小呈 U 型，证明 405B 是近似计算最优的模型规模。

405B 模型总计算量：3.8e25 FLOPs
遵循 scaling law，405B 为近似计算最优规模
小模型（8B、70B）训练远超计算最优的数据量——“过度训练”策略

3. 后训练

采用简洁的流程，避免复杂 RL 算法的不稳定性：

Supervised Fine-Tuning (SFT)：在高质量指令数据上监督微调
Rejection Sampling (RS)：对每个 prompt 生成多个回答，用奖励模型/评判工具筛选最佳答案，用于进一步训练
Direct Preference Optimization (DPO)：直接基于偏好数据优化模型，无需显式训练奖励模型

关键选择：放弃 PPO（InstructGPT 方法），选用 DPO——更简单、更稳定、更容易规模化。

4. 工具使用与推理

Llama 3 原生支持工具调用（function calling），模型在预训练和后训练阶段都被训练来理解和执行工具使用。

5. 多模态组合式集成

Llama 3 通过组合式方法（compositional approach）集成多模态能力：

在语言模型之上接入视觉编码器、语音编码器/解码器
图像、视频和语音识别任务上表现竞，接近 SOTA
多模态版本仍在开发中，暂未广泛发布

实验/评估/结果

关键基准（基于 clipping 中的 Table 2，数值以论文为准）

Llama 3 405B Instruct 在以下基准上与 GPT-4 竞争：

MMLU、HumanEval、GSM-8K 等核心 benchmark
在多数任务上与 GPT-4 持平或接近
8B 和 70B 版本分别在同等参数量级中领先同类模型

人类评估

广泛的 A/B 人类偏好评估确认 Llama 3 405B 与 GPT-4 在多数使用场景下表现相当。

安全与有用性平衡

Llama 3 在 helpfulness 和 harmlessness 之间达到了比 Llama 2 更好的平衡。

结论

Llama 3 证明了在开源路线上，通过数据规模、模型规模和复杂度管理的正确平衡，可以构建与 GPT-4 竞争的大语言模型。标准的 Dense Transformer 架构在 405B 规模上仍然有效，SFT+RS+DPO 的简洁后训练方案足以实现优秀的指令遵循和对齐性能。

思考

优点

开源的重大推进：405B 的完全开源是里程碑式的。它证明了开源社区在不需要闭源”魔法”的情况下也能达到 GPT-4 水平。
复杂度管理哲学的正确性：不做 MoE、不用复杂 RL（放弃 PPO 采用 DPO），选择更可预测、更稳定的技术路线。这种”在简单方案上做大”的思路在工程上非常明智。
“过度训练”小模型的策略：8B 和 70B 的训练远超计算最优——这让它们在推理时性价比极高。这是一个实用主义的洞见：scaling law 说的是训练阶段的最优，但推理阶段的成本也很重要。
后训练流程简化：SFT + Rejection Sampling + DPO 比 PPO-based RLHF 简单得多，但仍达到了优秀效果。这对开源社区的技术选择有重要指导意义。

缺点与局限

Clipping 不完整：本笔记基于的 clipping 仅 54 行（被截断），缺少大部分技术细节（如架构细节、具体的训练超参数、消融实验等），很多分析无法深入。
多模态仍在开发：虽然论文提到了图像/视频/语音的能力集成，但并未广泛发布，实际可用性有待验证。
缺乏 Chinchilla 级别的方法论创新：Llama 3 本质上是对已知技术的大规模执行和开源投入，不像 Chinchilla 那样带来了对 scaling law 的根本性修正。
405B 的推理成本：即使开源，405B 参数模型的推理需要大量 GPU 资源（8 块 A100/H100），对绝大多数个人和中小机构来说仍然不可行。

与已有 Wiki 的连接

关联概念：Scaling Law、DPO、Rejection Sampling、Tool Use
关联论文：LLaMA（Llama 系列创刊作）、Chinchilla 缩放定律（训练 15T tokens 远超 Chinchilla 最优）、GPT-4（主要竞品）
关联实体：Llama 3
后续演进：Llama 4 的进展

Blog1

探索