一句话总结:本文是 GPT-4 的技术报告,介绍了一个大规模多模态模型——接受图像和文本输入、生成文本输出,在多种专业和学术基准上达到人类水平表现。但报告刻意不公开架构细节、模型规模、训练方法等核心技术信息。
Intro
Motivation
OpenAI 的目标是推进深度学习在更大规模上的表现,并评估更大模型在能力、安全性、对齐性等维度的表现。GPT-4 是这一目标的产物,重点关注”可预测的缩放(predictable scaling)“——希望能在训练小模型时准确预测大模型的最终性能。
核心设计哲学
- Predictable Scaling:用小规模模型的训练行为预测大模型的最终性能。这不仅能提前判断训练的可行性,也能为安全研究提供信息。
- 安全和对齐:即使模型强大,也必须安全、可控。GPT-4 投入了大量工作在对抗测试、安全管线和监控上。
贡献
- GPT-4:一个多模态模型,在专业考试(律师资格考试前 10%)、学术 benchmark(MMLU 86.4%)上达到人类水平
- 可预测缩放的成功验证:训练前通过小模型预测了 GPT-4 的最终 loss 和 HumanEval 性能,预测准确
- 视觉输入能力
- 系统性的安全评估和改进:红队测试、模型辅助安全管线(RBRMs)
- 开源 OpenAI Evals 评估框架
但需要注意的是:这篇 technical report 故意不包含任何架构尺寸、硬件、训练方法、数据集构建、训练方法论等细节。这是由于”竞争格局和安全 implications 的考虑”。
Method 核心方法(基于报告中透露的部分)
1. 可预测缩放(Predictable Scaling)
OpenAI 使用小规模模型的训练曲线预测 GPT-4 的最终 loss 和能力。这包括:
- 预测 final loss:使用较小的模型(如 1/1000 或 1/10000 规模的模型)推断 full-scale 的 loss
- 预测 HumanEval pass rate:从更小模型的性能推断 GPT-4 的代码生成能力
- 预测结果与实际训练结果高度一致
2. 架构(极简透露)
- 输入的接受:图像 + 文本,输出:仅文本
- 基于 Transformer 架构(具体规模、层数、头数一律不公开)
- 接受”任意交错的文本和图像”作为输入
3. 训练方法
- 预训练:在大规模语料上训练(数据截止 2021 年 9 月)
- 后训练:RLHF(沿用 InstructGPT 的三步方法论:SFT → RM → PPO)
- 安全训练:额外的安全相关 RLHF 训练 prompt + Rule-Based Reward Models(RBRMs)
4. 安全机制
Rule-Based Reward Models (RBRMs):
- 零样本 GPT-4 分类器,用于评估策略模型的输出
- 输入:prompt(可选)、策略模型输出、人工撰写的 scoring rubric
- 根据 rubric 分类:合规拒绝、不合规拒绝(evasive)、包含不允许内容、安全的非拒绝响应
- 为 PPO 训练提供额外奖励信号,精细控制模型行为
安全训练结果:
- 对不允许内容的响应率降低 82%(相比 GPT-3.5)
- 敏感请求的合规率提升 29%
- RealToxicityPrompts 上的毒性输出率从 6.48% 降至 0.73%
实验/评估/结果
学术基准(与专用 SOTA 系统对比)
| 基准 | GPT-4 | GPT-3.5 | SOTA(专用系统) |
|---|---|---|---|
| MMLU | 86.4% | 70.0% | |
| ARC (Challenge) | 96.3% | 85.2% | 86.5% |
| WinoGrande | 87.5% | 81.6% | 85.1% |
| HumanEval | 67.0% | 48.1% | 65.8% |
| GSM-8K | 92.0%* | 57.1% | 87.3% |
| DROP (F1) | 80.9 | 64.1 | 88.4% |
*GSM-8K 使用了 chain-of-thought prompting,且部分训练数据可能包含 GSM-8K 训练集。
GPT-4 在除 DROP 外的所有 benchmark 上超越专用 SOTA 系统。
多语言能力
在 24 种语言的 MMLU 翻译版本上,GPT-4 在大多数语言(包括低资源语言如拉脱维亚语、威尔士语、斯瓦希里语)上超越了 GPT-3.5 的英语表现,展示了强大的跨语言泛化。
人类偏好评估
在 5,214 个 ChatGPT API prompt 上,GPT-4 的回复在 70.2% 的情况下被偏好于 GPT-3.5。
视觉输入能力
GPT-4 能理解并推理图像内容(文档、图表、截图等),few-shot prompting 和 chain-of-thought 等技术同样适用于视觉输入。
事实性(Hallucination 改进)
- 内部对抗设计的事实性评估:GPT-4 高于最新 GPT-3.5 约 19 个百分点
- TruthfulQA:GPT-4 base 仅略好于 GPT-3.5,但 RLHF 后大幅改善
- 显式比较中能看到 GPT-4 对常见谬误(“you can’t teach an old dog new tricks”)的抵制力更强
结论
GPT-4 是一个在多种专业和学术 benchmark 上达到人类水平的大规模多模态模型,其能力可以通过可预测缩放提前估算。OpenAI 投入了大量工作在安全性上,包括对抗测试、RBRMs 辅助的 RLHF、安全监控管线等。但由于竞争和安全考虑,该报告未公开核心技术细节。
思考
优点
-
Predictable Scaling 的价值:能在训练前准确预测大模型性能,对资源配置、时间规划和安全评估都有重要价值。这个”可预测性”本身是 scaling 研究的核心发现之一。
-
安全投入的透明度(相对而言):在 GPT-4 之前,很少有模型报告对安全做如此系统的评估。RBRMs 的概念(用模型评估模型的安全性)很值得关注。
-
多模态能力的 demo:虽然视觉能力只占报告的一小部分,但”接受任意交错的文本和图像”这一描述暗示了信息融合能力的重大进步。
-
多语言泛化的惊喜:低资源语言的 MMLU 超过 GPT-3.5 的英语水平,说明大规模预训练产生的跨语言迁移能力超乎预期。
缺点与局限
-
不是一篇真正的技术论文:OpenAI 自己称之为”technical report”而非 research paper。架构、模型大小、训练数据、硬件、计算量等核心细节全部缺失。这严重限制了学术社区的复现和研究能力。
-
安全性讨论的不足:尽管报告讨论了红队测试,但对 jailbreak、系统 prompt 对抗等实用性安全问题触及很少。报告中提到”jailbreak 仍然存在”但没有给出解决方案。
-
RLHF 后的校准退化:报告承认预训练模型的校准(calibration)很好,但 RLHF 后校准明显下降。这意味着后训练可能引入新的幻觉模式,但报告没有深入分析。
-
能力评估的选择性:报告主要报了 GPT-4 强的 benchmark,对弱的领域(如某些推理任务)着墨较少。这符合技术报告的性质,但不够全面。
-
不可复现性:整篇报告的”贡献”不可被学术复现——没有模型权重、没有训练代码、没有数据。它本质上是一份产品发布 docs,不是传统意义上的学术论文。
与已有 Wiki 的连接
- 关联概念:Predictable Scaling、RLHF、RBRM (Rule-Based Reward Model)、多模态模型
- 关联论文:InstructGPT(GPT-4 的 RLHF 方法论前身)、GPT-3(GPT-4 的直接前代)、GPT-4o System Card(GPT-4 的多模态后续)
- 关联实体:GPT-4、ChatGPT
- 关联问题:OpenAI 不公开 GPT-4 技术细节对研究社区的影响