大语言模型基础

本主题覆盖 LLM 的基础架构、训练范式和核心方法论，时间跨度从 2017 年 Transformer 诞生到 2024 年的 Llama 3。

核心脉络

大语言模型（LLM）的发展围绕四个核心问题展开：

架构：如何设计高效、可扩展的模型架构？
数据与规模：多少数据、多大模型、多少算力是「最佳」组合？
对齐：如何让模型遵循人类意图、减少有害输出？
开源 vs 闭源：开源模型能否追上闭源模型的能力？

架构演进

Attention Is All You Need (2017)：奠定基础。提出基于纯注意力的 Transformer 架构，替代 RNN/CNN。Transformer 实体页
BERT (2018)：双向编码器预训练，开创「预训练 + 微调」范式。MLM + NSP 目标。
RoPE (2021)：旋转位置编码，以优美方式融合绝对位置与相对位置信息，成为现代 LLM 标配。

缩放定律

GPT-3 (2020)：175B 参数，首次大规模验证 in-context learning 能力。证明了「规模即涌现能力」。
Chinchilla Scaling Laws (2022)：训练 400+ 模型后得出计算最优缩放定律——模型参数与训练数据应等比例增长。修正了 Kaplan et al. 的早期结论。
LLaMA (2023)：公开数据训练的最佳实践：1.4T token + 65B 参数 > 175B GPT-3。验证了 Chinchilla 定律的有效性。

对齐方法

InstructGPT (2022)：首次系统性地用 RLHF（SFT → RM → PPO）对齐语言模型。对齐训练成为后续所有模型的标配。
RLHF 概念页

前沿模型

GPT-4 (2023)：多模态输入、专业考试人类水平。技术细节高度保密。
GPT-4o (2024)：全模态（文本+音频+图像+视频输入输出），端到端统一训练，语音低延迟。
Llama 3 (2024)：405B dense，15T+ token，128K 上下文。DPO 替代 RLHF。开源能力达到 GPT-4 水平。

关键概念交叉引用

Scaling Laws — 缩放定律的形式化理解
RLHF — 人类反馈强化学习的机制与演进
RoPE 旋转位置编码 — 旋转位置编码的原理与影响
GPT 系列模型 — GPT 系列的全貌和代际对比

与其他主题的关系

本主题提供了 LLM 的「基础设施」视角，是理解扩散模型图像编辑与生成中 Vision Creator、Step1X-Edit 等基于 MLLM 方法的前提。
情感计算主题情感计算与图像生成中使用的 LLM 也基于这些基础架构。

待深入方向

Mixture of Experts (MoE) 架构（DeepSeek-V3、Mixtral 等）
推理增强方法（Chain-of-Thought、Tree-of-Thoughts 等）
长上下文扩展技术

我的思考：LLM 历史的两个”隐形”转折

1. BERT 为什么”输”了？

从纯技术角度看，BERT 和 GPT 在 2018 年是旗鼓相当的。BERT 的双向编码器在理解任务上天然有优势。但 GPT 路线最终主导了整个领域。为什么？

不是技术原因，是”生成”比”理解”有更多钱。 GPT 的自回归生成可以变成产品（ChatGPT、代码助手、写作工具），BERT 的编码器只能做分类和抽取——这些任务的商业价值远小于生成。所以所有资源（算力、人才、资本）都涌向了 GPT 路线。

另一个因素：自回归生成的 scaling 更”可预测”。当你用更多的数据和算力训练 GPT，它稳定地变好。BERT 的双向预训练在 scaling 上没有一个清晰的”更大 = 更好”的叙事。

2. Chinchilla 定律改变了什么——不是模型大小，是游戏规则

在 Chinchilla 之前，“做大模型”是唯一的游戏。GPT-3 175B 但训练数据只有 ~300B tokens——严重训练不足。Chinchilla 之后，游戏变成了”找到参数和数据的最优比例”。

这导致了两个后果：

好后果：小团队也能参与。LLaMA 证明了只要数据够（1.4T tokens），65B 可以打败 175B。数据比参数规模更容易获取。

坏后果：数据枯竭加速。如果每个模型都需要数万亿 token 的数据，“互联网上还有多少高质量文本”变成了一个真实的约束。Llama 3 用了 15T tokens——这已经接近目前公开可用的高质量文本的上限了。数据合成的时代可能正在到来。

3. 开源正在赢得”性价比”战争

GPT-4 在 2023 年是绝对的王者。但到 2024 年底，Llama 3 405B 接近了它的性能，DeepSeek-V3 在极低成本下匹敌 GPT-4o，Kimi K2 在 Agent 任务上超越。开源与闭源的差距从”差一代”缩小到”差半年”甚至”同代中各有千秋”。

这背后的驱动力不是某个天才的突破，而是 Chinchilla 定律 + MoE 架构 + 开源协作的三重叠加。Chinchilla 告诉你怎么分配资源，MoE 让你用更少的推理成本服务更大的模型，开源让你站在 LLaMA 和 DeepSeek 的肩膀上。

预测：如果这个趋势持续，2026 年底的开源旗舰模型将在所有维度上与闭源旗舰持平甚至超越。唯一的不确定性是——OpenAI/Gemini 是否有一个”GPT-5 级别的突破”未公开。

Blog1

探索

大语言模型基础

大语言模型基础

核心脉络

架构演进

缩放定律

对齐方法

前沿模型

关键概念交叉引用

与其他主题的关系

待深入方向

我的思考：LLM 历史的两个”隐形”转折

1. BERT 为什么”输”了？

2. Chinchilla 定律改变了什么——不是模型大小，是游戏规则

3. 开源正在赢得”性价比”战争

关系图谱

目录

反向链接