GPT 系列代际比较
为什么这个比较重要
GPT 系列从 2018 年的 117M 参数到 2024 年的全模态,表面上是”越来越强”。但如果仔细看每次代际跃迁的核心驱动力,一条清晰的规律浮现:规模驱动的进步有上限,方法创新和模态扩展才是长期方向。 而当 OpenAI 从 GPT-4 开始系统性地隐藏技术细节后,整个领域的科学进步面临一个深层困境。
一、能力维度矩阵
| 代际 | 发布年 | 参数规模 | 核心数据 | 纯文本 | ICL | 指令遵循 | 多模态入 | 全模态 | 端到端多模态 | 技术透明度 |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-1 | 2018 | 117M | BooksCorpus | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | 完全公开 |
| GPT-2 | 2019 | 1.5B | WebText(40GB) | ✅ | Zero-shot | ❌ | ❌ | ❌ | ❌ | 权重公开 |
| GPT-3 | 2020 | 175B | ~300B tokens | ✅ | Few-shot | ❌ | ❌ | ❌ | ❌ | API only |
| InstructGPT | 2022 | 1.3B-175B | GPT-3 + human | ✅ | ✅ | RLHF | ❌ | ❌ | ❌ | 论文公开 |
| GPT-4 | 2023 | 未公开 | 未公开 | ✅ | ✅ | ✅ | 图像输入 | ❌ | ❌ | 高度保密 |
| GPT-4o | 2024 | 未公开 | 未公开 | ✅ | ✅ | ✅ | ✅ | 全模态 | 端到端 | 高度保密 |
ICL = In-Context Learning
二、每次代际跃迁的核心驱动力
这是我对这条线最重要的判断:推动 GPT 进步的核心驱动力在代际间系统性地转移。
GPT-1 → GPT-2 → GPT-3:规模即创新
这三代的提升几乎完全来自规模放大——参数(117M → 1.5B → 175B)和数据量同步增长。GPT-2 在 GPT-1 的架构上几乎没有变化,只是更大。GPT-3 也只是把 GPT-2 放大到 175B,但这次放大跨越了某个临界点——in-context learning 作为”涌现能力”出现了。
这段历史确立了一个叙事:规模驱动一切。 但这个叙事的有效期有多长?我猜 OpenAI 内部在那时就已经在问这个问题了。
GPT-3 → InstructGPT:方法创新取代规模增长
InstructGPT 的 1.3B RLHF 模型在人类偏好评分上优于 175B GPT-3,这是惊人的——方法改进用 1/135 的参数超越了纯规模优势。RLHF(SFT → Reward Model → PPO)成为后续所有对齐训练的标准范式。
这标志着一个转折:当规模增长遇到瓶颈(训练 1T+ 模型的成本变得不现实),方法创新开始取代规模增长成为新的进步引擎。 InstructGPT 不是更大,而是更”听话”——“对齐”取代”缩放”成为核心议题。
GPT-4 → GPT-4o:模态扩展取代文本能力提升
GPT-4 的文本能力相比 InstructGPT 仍然是巨大提升(律师资格考试前 10%),但 GPT-4o 的主要卖点不是”文本更强了”,而是模态统一——文本、图像、音频、视频的端到端处理。这意味着:
- 纯文本能力的提升速度在放缓(边际收益递减)
- 模态扩展开辟了全新的能力空间(语音交互、视觉推理、视频理解)
- “全模态”可能是比”更强的文本模型”更大的产品突破
规律总结
规模 → 方法 → 模态。这不是预言未来一定会沿着这个方向走,而是描述了一个已经发生的轨迹。如果这个规律继续成立,GPT 的下一个重大突破可能来自:
- Agent 能力(在工具使用和任务规划上突破)
- 推理深度(类似 o1/o3 的 RL-trained reasoning,但更深)
- 世界模型(从 token 预测到真正的物理世界理解)
三、GPT-4 的技术保密:科学倒退还是商业必须?
GPT-4 的技术报告完全不包含架构细节、参数规模、训练数据量、硬件配置。这是与 GPT-1/GPT-2/GPT-3/InstructGPT 完全断裂的做法。我在第一次读到这份报告时感到一种深刻的不安——OpenAI 的名字在最开始代表的是”开放”(Open),到 2023-2024 年已经变得名不副实。
这对科学研究的伤害
- 不可复现:没有人知道 GPT-4 是怎么做出来的、代价是什么、有什么失败尝试。整个领域在黑暗中摸索。
- 不科学的基准:当你的模型比所有已知模型都强,但没人知道它为什么强,你就不能用它来检验科学假设。GPT-4 成了一个黑箱 SOTA,它超越了人类 baseline,但没有教会我们任何新知识。
- 生态锁定:所有下游研究和应用都绑定在 OpenAI API 上,无法迁移、无法审计、无法改进。
但商业上,这可能是正确的
如果竞争的核心从”科学发现速度”转移到”产品迭代速度”,那保密所有的技术细节对 OpenAI 而言是最优策略——技术报告变成了产品营销,而非科学交流。痛苦的是,这可能是对的:在 ChatGPT 已经有数亿用户的时代,公开架构细节带来的竞争劣势远大于带来的学术声誉。
我的立场
理解 OpenAI 的商业选择,但不代表同意它。 保密正在让整个 LLM 研究领域退化成一个”猜测行业”——大家只能猜 GPT-4 用了什么 MoE、什么数据清洗流程、什么 RLHF 变体。这不是科学应有的样子。
开源模型(Llama 系列、DeepSeek 系列、Qwen 系列)的快速追赶在某种程度上是对这种保密的反击——既然你不知道 GPT-4 怎么做的,你就自己做一个能公开的。Llama 3 405B 接近 GPT-4 的能力证明了:开源路线不需要知道闭源怎么做也能追上。
四、GPT-4o 的端到端全模态:真正的统一还是工程妥协?
GPT-4o 宣称是”端到端统一训练”的全模态模型。但”端到端”在这个语境下可以有非常不同的实现方式:
- 真正的原生统一(如 Emu3.5):所有模态被 token 化为统一的离散 token 序列,由同一个 Transformer 处理。文本和图像在表示层面没有区别。
- 伪统一(如很多 VLM + Diffusion 方案):文本由 LLM 处理,图像由 Diffusion 模型生成,通过 adapter 连接。虽然可以”端到端训练”,但模态之间仍然有天然的表示鸿沟。
- GPT-4o 的位置:我们不知道。OpenAI 没有公开任何架构细节。
与 Emu3.5 和 BAGEL 的对比
| 维度 | Emu3.5 | BAGEL | GPT-4o (推测) |
|---|---|---|---|
| 模态统一方式 | 原生 token 化(10T tokens) | MoT 双编码器+共享 backbone | 未公开 |
| 推理速度 | 慢(原生 token 化的代价) | 中等 | 极快(语音 232ms) |
| 交错生成 | ✅ | ✅ | ✅(有示例) |
| 架构透明度 | 高 | 高 | 零 |
GPT-4o 的语音延迟(232ms,接近人类对话速度)是一个工程奇迹——无论它内部用了什么架构,这个延迟意味着它不可能在处理语音时走”ASR → LLM → TTS”的级联流水线。它必须是某种端到端的模态融合,但融合的深度和方式我们完全不知道。
五、开源追赶速度:规模优势的壁垒在下降
| 差距 | GPT-3 (2020) | GPT-4 (2023) | GPT-4o (2024) |
|---|---|---|---|
| 第一个可比的闭源模型 | 无(GPT-3 是开荒者) | GPT-4 (2023/03) | GPT-4o (2024/05) |
| 第一个可比的开源模型 | LLaMA 65B (2023/02) | Llama 3 405B (2024/07) | Qwen2.5-Omni / Kimi-VL? |
| 追赶时间 | ~2.5 年 | ~1.5 年 | ~6-9 个月? |
| 差距说明 | 开源远落后 | 接近但未超越 | 基本持平或更快 |
这说明一件事:“规模优势”的壁垒在系统性地下降。 原因:
- 开源社区积累了足够的训练经验(数据混合、训练稳定性、超参数选择)
- MoE 和蒸馏技术降低了训练和部署成本
- 开源模型可以站在闭源模型的肩膀上——用闭源模型生成训练数据(如 GPT-3 生成 InstructPix2Pix 训练对)
如果这个趋势继续,GPT-5 可能在发布后不到一年就有可比的开源替代。到那时,OpenAI 的核心优势将不再是模型能力,而是产品生态(ChatGPT 的用户基础、API 基础设施、品牌认知)。
六、一个深层问题
GPT 系列发展的终极目标是什么? 从 GPT-1 到 GPT-4o,能力越来越强、模态越来越多,但目标也在悄然变化:
- GPT-1 目标是”证明预训练有用”
- GPT-2 目标是”zero-shot 能做任务”
- GPT-3 目标是”few-shot 替代微调”
- InstructGPT 目标是”让模型听人类话”
- GPT-4 目标是”人类水平的考试表现”
- GPT-4o 目标是”像人一样交互”
目标在从**“能做什么”转向”怎么和人互动”**。这说明 AI 研究的重心正在从”能力”转向”体验”,从”强”转向”好用”。这对研究者的启示是:如果只盯着 benchmark 看模型能不能做,你可能在研究一个正在过去的范式。
相关页面
- GPT 系列模型 — GPT 系列全貌
- 大语言模型基础 — LLM 基础全景
- Scaling Laws — 缩放定律
- RLHF — 对齐方法演进
- LLM 缩放定律比较 — Kaplan vs Chinchilla
- 国产大模型技术路线比较 — 开源追赶者的技术路线
- 统一多模态模型架构比较 — 全模态架构对比