GPT 系列代际比较

为什么这个比较重要

GPT 系列从 2018 年的 117M 参数到 2024 年的全模态,表面上是”越来越强”。但如果仔细看每次代际跃迁的核心驱动力,一条清晰的规律浮现:规模驱动的进步有上限,方法创新和模态扩展才是长期方向。 而当 OpenAI 从 GPT-4 开始系统性地隐藏技术细节后,整个领域的科学进步面临一个深层困境。


一、能力维度矩阵

代际发布年参数规模核心数据纯文本ICL指令遵循多模态入全模态端到端多模态技术透明度
GPT-12018117MBooksCorpus完全公开
GPT-220191.5BWebText(40GB)Zero-shot权重公开
GPT-32020175B~300B tokensFew-shotAPI only
InstructGPT20221.3B-175BGPT-3 + humanRLHF论文公开
GPT-42023未公开未公开图像输入高度保密
GPT-4o2024未公开未公开全模态端到端高度保密

ICL = In-Context Learning


二、每次代际跃迁的核心驱动力

这是我对这条线最重要的判断:推动 GPT 进步的核心驱动力在代际间系统性地转移。

GPT-1 → GPT-2 → GPT-3:规模即创新

这三代的提升几乎完全来自规模放大——参数(117M → 1.5B → 175B)和数据量同步增长。GPT-2 在 GPT-1 的架构上几乎没有变化,只是更大。GPT-3 也只是把 GPT-2 放大到 175B,但这次放大跨越了某个临界点——in-context learning 作为”涌现能力”出现了。

这段历史确立了一个叙事:规模驱动一切。 但这个叙事的有效期有多长?我猜 OpenAI 内部在那时就已经在问这个问题了。

GPT-3 → InstructGPT:方法创新取代规模增长

InstructGPT 的 1.3B RLHF 模型在人类偏好评分上优于 175B GPT-3,这是惊人的——方法改进用 1/135 的参数超越了纯规模优势。RLHF(SFT → Reward Model → PPO)成为后续所有对齐训练的标准范式。

这标志着一个转折:当规模增长遇到瓶颈(训练 1T+ 模型的成本变得不现实),方法创新开始取代规模增长成为新的进步引擎。 InstructGPT 不是更大,而是更”听话”——“对齐”取代”缩放”成为核心议题。

GPT-4 → GPT-4o:模态扩展取代文本能力提升

GPT-4 的文本能力相比 InstructGPT 仍然是巨大提升(律师资格考试前 10%),但 GPT-4o 的主要卖点不是”文本更强了”,而是模态统一——文本、图像、音频、视频的端到端处理。这意味着:

  • 纯文本能力的提升速度在放缓(边际收益递减)
  • 模态扩展开辟了全新的能力空间(语音交互、视觉推理、视频理解)
  • “全模态”可能是比”更强的文本模型”更大的产品突破

规律总结

规模 → 方法 → 模态。这不是预言未来一定会沿着这个方向走,而是描述了一个已经发生的轨迹。如果这个规律继续成立,GPT 的下一个重大突破可能来自:

  • Agent 能力(在工具使用和任务规划上突破)
  • 推理深度(类似 o1/o3 的 RL-trained reasoning,但更深)
  • 世界模型(从 token 预测到真正的物理世界理解)

三、GPT-4 的技术保密:科学倒退还是商业必须?

GPT-4 的技术报告完全不包含架构细节、参数规模、训练数据量、硬件配置。这是与 GPT-1/GPT-2/GPT-3/InstructGPT 完全断裂的做法。我在第一次读到这份报告时感到一种深刻的不安——OpenAI 的名字在最开始代表的是”开放”(Open),到 2023-2024 年已经变得名不副实。

这对科学研究的伤害

  1. 不可复现:没有人知道 GPT-4 是怎么做出来的、代价是什么、有什么失败尝试。整个领域在黑暗中摸索。
  2. 不科学的基准:当你的模型比所有已知模型都强,但没人知道它为什么强,你就不能用它来检验科学假设。GPT-4 成了一个黑箱 SOTA,它超越了人类 baseline,但没有教会我们任何新知识。
  3. 生态锁定:所有下游研究和应用都绑定在 OpenAI API 上,无法迁移、无法审计、无法改进。

但商业上,这可能是正确的

如果竞争的核心从”科学发现速度”转移到”产品迭代速度”,那保密所有的技术细节对 OpenAI 而言是最优策略——技术报告变成了产品营销,而非科学交流。痛苦的是,这可能是对的:在 ChatGPT 已经有数亿用户的时代,公开架构细节带来的竞争劣势远大于带来的学术声誉。

我的立场

理解 OpenAI 的商业选择,但不代表同意它。 保密正在让整个 LLM 研究领域退化成一个”猜测行业”——大家只能猜 GPT-4 用了什么 MoE、什么数据清洗流程、什么 RLHF 变体。这不是科学应有的样子。

开源模型(Llama 系列、DeepSeek 系列、Qwen 系列)的快速追赶在某种程度上是对这种保密的反击——既然你不知道 GPT-4 怎么做的,你就自己做一个能公开的。Llama 3 405B 接近 GPT-4 的能力证明了:开源路线不需要知道闭源怎么做也能追上。


四、GPT-4o 的端到端全模态:真正的统一还是工程妥协?

GPT-4o 宣称是”端到端统一训练”的全模态模型。但”端到端”在这个语境下可以有非常不同的实现方式:

  1. 真正的原生统一(如 Emu3.5):所有模态被 token 化为统一的离散 token 序列,由同一个 Transformer 处理。文本和图像在表示层面没有区别。
  2. 伪统一(如很多 VLM + Diffusion 方案):文本由 LLM 处理,图像由 Diffusion 模型生成,通过 adapter 连接。虽然可以”端到端训练”,但模态之间仍然有天然的表示鸿沟。
  3. GPT-4o 的位置:我们不知道。OpenAI 没有公开任何架构细节。

与 Emu3.5 和 BAGEL 的对比

维度Emu3.5BAGELGPT-4o (推测)
模态统一方式原生 token 化(10T tokens)MoT 双编码器+共享 backbone未公开
推理速度慢(原生 token 化的代价)中等极快(语音 232ms)
交错生成✅(有示例)
架构透明度

GPT-4o 的语音延迟(232ms,接近人类对话速度)是一个工程奇迹——无论它内部用了什么架构,这个延迟意味着它不可能在处理语音时走”ASR → LLM → TTS”的级联流水线。它必须是某种端到端的模态融合,但融合的深度和方式我们完全不知道。


五、开源追赶速度:规模优势的壁垒在下降

差距GPT-3 (2020)GPT-4 (2023)GPT-4o (2024)
第一个可比的闭源模型无(GPT-3 是开荒者)GPT-4 (2023/03)GPT-4o (2024/05)
第一个可比的开源模型LLaMA 65B (2023/02)Llama 3 405B (2024/07)Qwen2.5-Omni / Kimi-VL?
追赶时间~2.5 年~1.5 年~6-9 个月?
差距说明开源远落后接近但未超越基本持平或更快

这说明一件事:“规模优势”的壁垒在系统性地下降。 原因:

  1. 开源社区积累了足够的训练经验(数据混合、训练稳定性、超参数选择)
  2. MoE 和蒸馏技术降低了训练和部署成本
  3. 开源模型可以站在闭源模型的肩膀上——用闭源模型生成训练数据(如 GPT-3 生成 InstructPix2Pix 训练对)

如果这个趋势继续,GPT-5 可能在发布后不到一年就有可比的开源替代。到那时,OpenAI 的核心优势将不再是模型能力,而是产品生态(ChatGPT 的用户基础、API 基础设施、品牌认知)。


六、一个深层问题

GPT 系列发展的终极目标是什么? 从 GPT-1 到 GPT-4o,能力越来越强、模态越来越多,但目标也在悄然变化:

  • GPT-1 目标是”证明预训练有用”
  • GPT-2 目标是”zero-shot 能做任务”
  • GPT-3 目标是”few-shot 替代微调”
  • InstructGPT 目标是”让模型听人类话”
  • GPT-4 目标是”人类水平的考试表现”
  • GPT-4o 目标是”像人一样交互”

目标在从**“能做什么”转向”怎么和人互动”**。这说明 AI 研究的重心正在从”能力”转向”体验”,从”强”转向”好用”。这对研究者的启示是:如果只盯着 benchmark 看模型能不能做,你可能在研究一个正在过去的范式。


相关页面