GPT 系列代际比较

为什么这个比较重要

GPT 系列从 2018 年的 117M 参数到 2024 年的全模态，表面上是”越来越强”。但如果仔细看每次代际跃迁的核心驱动力，一条清晰的规律浮现：规模驱动的进步有上限，方法创新和模态扩展才是长期方向。 而当 OpenAI 从 GPT-4 开始系统性地隐藏技术细节后，整个领域的科学进步面临一个深层困境。

一、能力维度矩阵

代际	发布年	参数规模	核心数据	纯文本	ICL	指令遵循	多模态入	全模态	端到端多模态	技术透明度
GPT-1	2018	117M	BooksCorpus	✅	❌	❌	❌	❌	❌	完全公开
GPT-2	2019	1.5B	WebText(40GB)	✅	Zero-shot	❌	❌	❌	❌	权重公开
GPT-3	2020	175B	~300B tokens	✅	Few-shot	❌	❌	❌	❌	API only
InstructGPT	2022	1.3B-175B	GPT-3 + human	✅	✅	RLHF	❌	❌	❌	论文公开
GPT-4	2023	未公开	未公开	✅	✅	✅	图像输入	❌	❌	高度保密
GPT-4o	2024	未公开	未公开	✅	✅	✅	✅	全模态	端到端	高度保密

ICL = In-Context Learning

二、每次代际跃迁的核心驱动力

这是我对这条线最重要的判断：推动 GPT 进步的核心驱动力在代际间系统性地转移。

GPT-1 → GPT-2 → GPT-3：规模即创新

这三代的提升几乎完全来自规模放大——参数（117M → 1.5B → 175B）和数据量同步增长。GPT-2 在 GPT-1 的架构上几乎没有变化，只是更大。GPT-3 也只是把 GPT-2 放大到 175B，但这次放大跨越了某个临界点——in-context learning 作为”涌现能力”出现了。

这段历史确立了一个叙事：规模驱动一切。 但这个叙事的有效期有多长？我猜 OpenAI 内部在那时就已经在问这个问题了。

GPT-3 → InstructGPT：方法创新取代规模增长

InstructGPT 的 1.3B RLHF 模型在人类偏好评分上优于 175B GPT-3，这是惊人的——方法改进用 1/135 的参数超越了纯规模优势。RLHF（SFT → Reward Model → PPO）成为后续所有对齐训练的标准范式。

这标志着一个转折：当规模增长遇到瓶颈（训练 1T+ 模型的成本变得不现实），方法创新开始取代规模增长成为新的进步引擎。 InstructGPT 不是更大，而是更”听话”——“对齐”取代”缩放”成为核心议题。

GPT-4 → GPT-4o：模态扩展取代文本能力提升

GPT-4 的文本能力相比 InstructGPT 仍然是巨大提升（律师资格考试前 10%），但 GPT-4o 的主要卖点不是”文本更强了”，而是模态统一——文本、图像、音频、视频的端到端处理。这意味着：

纯文本能力的提升速度在放缓（边际收益递减）
模态扩展开辟了全新的能力空间（语音交互、视觉推理、视频理解）
“全模态”可能是比”更强的文本模型”更大的产品突破

规律总结

规模 → 方法 → 模态。这不是预言未来一定会沿着这个方向走，而是描述了一个已经发生的轨迹。如果这个规律继续成立，GPT 的下一个重大突破可能来自：

Agent 能力（在工具使用和任务规划上突破）
推理深度（类似 o1/o3 的 RL-trained reasoning，但更深）
世界模型（从 token 预测到真正的物理世界理解）

三、GPT-4 的技术保密：科学倒退还是商业必须？

GPT-4 的技术报告完全不包含架构细节、参数规模、训练数据量、硬件配置。这是与 GPT-1/GPT-2/GPT-3/InstructGPT 完全断裂的做法。我在第一次读到这份报告时感到一种深刻的不安——OpenAI 的名字在最开始代表的是”开放”（Open），到 2023-2024 年已经变得名不副实。

这对科学研究的伤害

不可复现：没有人知道 GPT-4 是怎么做出来的、代价是什么、有什么失败尝试。整个领域在黑暗中摸索。
不科学的基准：当你的模型比所有已知模型都强，但没人知道它为什么强，你就不能用它来检验科学假设。GPT-4 成了一个黑箱 SOTA，它超越了人类 baseline，但没有教会我们任何新知识。
生态锁定：所有下游研究和应用都绑定在 OpenAI API 上，无法迁移、无法审计、无法改进。

但商业上，这可能是正确的

如果竞争的核心从”科学发现速度”转移到”产品迭代速度”，那保密所有的技术细节对 OpenAI 而言是最优策略——技术报告变成了产品营销，而非科学交流。痛苦的是，这可能是对的：在 ChatGPT 已经有数亿用户的时代，公开架构细节带来的竞争劣势远大于带来的学术声誉。

我的立场

理解 OpenAI 的商业选择，但不代表同意它。 保密正在让整个 LLM 研究领域退化成一个”猜测行业”——大家只能猜 GPT-4 用了什么 MoE、什么数据清洗流程、什么 RLHF 变体。这不是科学应有的样子。

开源模型（Llama 系列、DeepSeek 系列、Qwen 系列）的快速追赶在某种程度上是对这种保密的反击——既然你不知道 GPT-4 怎么做的，你就自己做一个能公开的。Llama 3 405B 接近 GPT-4 的能力证明了：开源路线不需要知道闭源怎么做也能追上。

四、GPT-4o 的端到端全模态：真正的统一还是工程妥协？

GPT-4o 宣称是”端到端统一训练”的全模态模型。但”端到端”在这个语境下可以有非常不同的实现方式：

真正的原生统一（如 Emu3.5）：所有模态被 token 化为统一的离散 token 序列，由同一个 Transformer 处理。文本和图像在表示层面没有区别。
伪统一（如很多 VLM + Diffusion 方案）：文本由 LLM 处理，图像由 Diffusion 模型生成，通过 adapter 连接。虽然可以”端到端训练”，但模态之间仍然有天然的表示鸿沟。
GPT-4o 的位置：我们不知道。OpenAI 没有公开任何架构细节。

与 Emu3.5 和 BAGEL 的对比

维度	Emu3.5	BAGEL	GPT-4o (推测)
模态统一方式	原生 token 化（10T tokens）	MoT 双编码器+共享 backbone	未公开
推理速度	慢（原生 token 化的代价）	中等	极快（语音 232ms）
交错生成	✅	✅	✅（有示例）
架构透明度	高	高	零

GPT-4o 的语音延迟（232ms，接近人类对话速度）是一个工程奇迹——无论它内部用了什么架构，这个延迟意味着它不可能在处理语音时走”ASR → LLM → TTS”的级联流水线。它必须是某种端到端的模态融合，但融合的深度和方式我们完全不知道。

五、开源追赶速度：规模优势的壁垒在下降

差距	GPT-3 (2020)	GPT-4 (2023)	GPT-4o (2024)
第一个可比的闭源模型	无（GPT-3 是开荒者）	GPT-4 (2023/03)	GPT-4o (2024/05)
第一个可比的开源模型	LLaMA 65B (2023/02)	Llama 3 405B (2024/07)	Qwen2.5-Omni / Kimi-VL?
追赶时间	~2.5 年	~1.5 年	~6-9 个月?
差距说明	开源远落后	接近但未超越	基本持平或更快

这说明一件事：“规模优势”的壁垒在系统性地下降。 原因：

开源社区积累了足够的训练经验（数据混合、训练稳定性、超参数选择）
MoE 和蒸馏技术降低了训练和部署成本
开源模型可以站在闭源模型的肩膀上——用闭源模型生成训练数据（如 GPT-3 生成 InstructPix2Pix 训练对）

如果这个趋势继续，GPT-5 可能在发布后不到一年就有可比的开源替代。到那时，OpenAI 的核心优势将不再是模型能力，而是产品生态（ChatGPT 的用户基础、API 基础设施、品牌认知）。

六、一个深层问题

GPT 系列发展的终极目标是什么？ 从 GPT-1 到 GPT-4o，能力越来越强、模态越来越多，但目标也在悄然变化：

GPT-1 目标是”证明预训练有用”
GPT-2 目标是”zero-shot 能做任务”
GPT-3 目标是”few-shot 替代微调”
InstructGPT 目标是”让模型听人类话”
GPT-4 目标是”人类水平的考试表现”
GPT-4o 目标是”像人一样交互”

目标在从**“能做什么”转向”怎么和人互动”**。这说明 AI 研究的重心正在从”能力”转向”体验”，从”强”转向”好用”。这对研究者的启示是：如果只盯着 benchmark 看模型能不能做，你可能在研究一个正在过去的范式。

Blog1

探索

GPT 系列代际比较

GPT 系列代际比较

为什么这个比较重要

一、能力维度矩阵

二、每次代际跃迁的核心驱动力

GPT-1 → GPT-2 → GPT-3：规模即创新

GPT-3 → InstructGPT：方法创新取代规模增长

GPT-4 → GPT-4o：模态扩展取代文本能力提升

规律总结

三、GPT-4 的技术保密：科学倒退还是商业必须？

这对科学研究的伤害

但商业上，这可能是正确的

我的立场

四、GPT-4o 的端到端全模态：真正的统一还是工程妥协？

与 Emu3.5 和 BAGEL 的对比

五、开源追赶速度：规模优势的壁垒在下降

六、一个深层问题

相关页面

关系图谱

目录

反向链接