GPT 系列模型
定义
GPT(Generative Pre-trained Transformer)是 OpenAI 开发的一系列自回归语言模型,基于 Transformer Decoder 架构。从 GPT-1 到 GPT-4o,该系列模型从纯文本语言模型演变为全模态 AI 系统,是现代 LLM 能力发展的缩影。
各代模型概览
GPT-1 (2018)
- 「Improving Language Understanding by Generative Pre-Training」
- 首次提出 GPT 范式:在大规模无标注文本上做生成式预训练,在下游任务上微调
- 12 层 Transformer Decoder,117M 参数
- 核心贡献:建立「预训练 + 微调」范式的解码器路径
GPT-2 (2019)
- 「Language Models are Unsupervised Multitask Learners」
- 1.5B 参数,WebText 数据集
- 首次展示 zero-shot 迁移能力(无需微调即可完成部分任务)
- 因「太危险」一度延迟发布(引发了 AI 安全讨论)
GPT-3 (2020)
- Language Models are Few-Shot Learners
- 175B 参数,约 300B token 训练数据
- 核心贡献:系统性地证明了 in-context learning——通过上下文中的少量示例即可完成新任务,无需微调
- 8 个不同规模的模型(125M → 175B),验证了性能随规模提升的规律
InstructGPT (2022)
- Training Language Models to Follow Instructions with Human Feedback
- 基于 GPT-3,引入 RLHF 三阶段对齐流程
- 核心贡献:确立了「对齐」在 LLM 开发中的必要性和标准方法
- 1.3B InstructGPT 的人类偏好评分优于 175B 原始 GPT-3
GPT-4 (2023)
- GPT-4 Technical Report
- 多模态输入(文本+图像),文本输出
- 专业考试 human-level 性能(律师资格考试前 10%)
- predictable scaling 基础架构(小模型预测大模型性能)
- 技术细节高度保密(架构、参数、数据均未公开)
GPT-4o (2024)
- GPT-4o System Card
- 全模态:文本、音频、图像、视频输入和输出,端到端统一训练
- 语音响应延迟 232ms(接近人类对话速度)
- 视觉和音频理解大幅超越前代
关键能力演进
| 代际 | 纯文本 | In-Context Learning | 指令遵循 | 多模态输入 | 全模态 | 端到端多模态 |
|---|---|---|---|---|---|---|
| GPT-1 | Yes | No | No | No | No | No |
| GPT-2 | Yes | Zero-shot | No | No | No | No |
| GPT-3 | Yes | Few-shot | No | No | No | No |
| InstructGPT | Yes | Yes | Yes (RLHF) | No | No | No |
| GPT-4 | Yes | Yes | Yes | Yes | No | No |
| GPT-4o | Yes | Yes | Yes | Yes | Yes | Yes |
架构共性
- 全部基于 Transformer Decoder(单向自注意力,自回归生成)
- Next-token prediction 作为预训练目标
- 从纯文本逐渐扩展到多模态(GPT-4 图像输入,GPT-4o 全模态)
- 对齐方法从无 → RLHF → 持续演进
与开源模型的对比
- LLaMA 系列:开源路线的主要竞争者,Llama 3 405B 性能接近 GPT-4
- 开源生态(Mistral、Qwen、DeepSeek 等):快速追赶,缩小能力差距