大语言模型基础
本主题覆盖 LLM 的基础架构、训练范式和核心方法论,时间跨度从 2017 年 Transformer 诞生到 2024 年的 Llama 3。
核心脉络
大语言模型(LLM)的发展围绕四个核心问题展开:
- 架构:如何设计高效、可扩展的模型架构?
- 数据与规模:多少数据、多大模型、多少算力是「最佳」组合?
- 对齐:如何让模型遵循人类意图、减少有害输出?
- 开源 vs 闭源:开源模型能否追上闭源模型的能力?
架构演进
- Attention Is All You Need (2017):奠定基础。提出基于纯注意力的 Transformer 架构,替代 RNN/CNN。Transformer 实体页
- BERT (2018):双向编码器预训练,开创「预训练 + 微调」范式。MLM + NSP 目标。
- RoPE (2021):旋转位置编码,以优美方式融合绝对位置与相对位置信息,成为现代 LLM 标配。
缩放定律
- GPT-3 (2020):175B 参数,首次大规模验证 in-context learning 能力。证明了「规模即涌现能力」。
- Chinchilla Scaling Laws (2022):训练 400+ 模型后得出计算最优缩放定律——模型参数与训练数据应等比例增长。修正了 Kaplan et al. 的早期结论。
- LLaMA (2023):公开数据训练的最佳实践:1.4T token + 65B 参数 > 175B GPT-3。验证了 Chinchilla 定律的有效性。
对齐方法
- InstructGPT (2022):首次系统性地用 RLHF(SFT → RM → PPO)对齐语言模型。对齐训练成为后续所有模型的标配。
- RLHF 概念页
前沿模型
- GPT-4 (2023):多模态输入、专业考试人类水平。技术细节高度保密。
- GPT-4o (2024):全模态(文本+音频+图像+视频输入输出),端到端统一训练,语音低延迟。
- Llama 3 (2024):405B dense,15T+ token,128K 上下文。DPO 替代 RLHF。开源能力达到 GPT-4 水平。
关键概念交叉引用
- Scaling Laws — 缩放定律的形式化理解
- RLHF — 人类反馈强化学习的机制与演进
- RoPE 旋转位置编码 — 旋转位置编码的原理与影响
- GPT 系列模型 — GPT 系列的全貌和代际对比
与其他主题的关系
- 本主题提供了 LLM 的「基础设施」视角,是理解扩散模型图像编辑与生成中 Vision Creator、Step1X-Edit 等基于 MLLM 方法的前提。
- 情感计算主题情感计算与图像生成中使用的 LLM 也基于这些基础架构。
待深入方向
- Mixture of Experts (MoE) 架构(DeepSeek-V3、Mixtral 等)
- 推理增强方法(Chain-of-Thought、Tree-of-Thoughts 等)
- 长上下文扩展技术
我的思考:LLM 历史的两个”隐形”转折
1. BERT 为什么”输”了?
从纯技术角度看,BERT 和 GPT 在 2018 年是旗鼓相当的。BERT 的双向编码器在理解任务上天然有优势。但 GPT 路线最终主导了整个领域。为什么?
不是技术原因,是”生成”比”理解”有更多钱。 GPT 的自回归生成可以变成产品(ChatGPT、代码助手、写作工具),BERT 的编码器只能做分类和抽取——这些任务的商业价值远小于生成。所以所有资源(算力、人才、资本)都涌向了 GPT 路线。
另一个因素:自回归生成的 scaling 更”可预测”。当你用更多的数据和算力训练 GPT,它稳定地变好。BERT 的双向预训练在 scaling 上没有一个清晰的”更大 = 更好”的叙事。
2. Chinchilla 定律改变了什么——不是模型大小,是游戏规则
在 Chinchilla 之前,“做大模型”是唯一的游戏。GPT-3 175B 但训练数据只有 ~300B tokens——严重训练不足。Chinchilla 之后,游戏变成了”找到参数和数据的最优比例”。
这导致了两个后果:
好后果:小团队也能参与。LLaMA 证明了只要数据够(1.4T tokens),65B 可以打败 175B。数据比参数规模更容易获取。
坏后果:数据枯竭加速。如果每个模型都需要数万亿 token 的数据,“互联网上还有多少高质量文本”变成了一个真实的约束。Llama 3 用了 15T tokens——这已经接近目前公开可用的高质量文本的上限了。数据合成的时代可能正在到来。
3. 开源正在赢得”性价比”战争
GPT-4 在 2023 年是绝对的王者。但到 2024 年底,Llama 3 405B 接近了它的性能,DeepSeek-V3 在极低成本下匹敌 GPT-4o,Kimi K2 在 Agent 任务上超越。开源与闭源的差距从”差一代”缩小到”差半年”甚至”同代中各有千秋”。
这背后的驱动力不是某个天才的突破,而是 Chinchilla 定律 + MoE 架构 + 开源协作的三重叠加。Chinchilla 告诉你怎么分配资源,MoE 让你用更少的推理成本服务更大的模型,开源让你站在 LLaMA 和 DeepSeek 的肩膀上。
预测:如果这个趋势持续,2026 年底的开源旗舰模型将在所有维度上与闭源旗舰持平甚至超越。唯一的不确定性是——OpenAI/Gemini 是否有一个”GPT-5 级别的突破”未公开。