LLaMA: Open and Efficient Foundation Language Models
核心结论
- 提出了 LLaMA(7B/13B/33B/65B),一系列仅使用公开数据集训练的基础语言模型,证明无需私有数据即可训练 SOTA 模型。
- LLaMA-13B 在大多数 benchmark 上超越 GPT-3(175B),LLaMA-65B 与 Chinchilla-70B 和 PaLM-540B 竞争。
- 核心洞察:给定计算预算,最佳性能不是来自最大模型,而是来自在更多数据上训练的较小模型——遵循 Chinchilla 缩放定律。
关键方法或创新点
- 数据驱动效率:使用 1.4T token 的公开数据(CommonCrawl、C4、GitHub、Wikipedia、Books、ArXiv、Stack Exchange 等)。
- 架构改进:
- 训练细节:AdamW 优化器,手动调整学习率调度,使用高效的 xformers 实现;所有训练在 2048 个 A100 GPU 上完成。
与现有 Wiki 的关系
局限或注意事项
- 仅研究性发布(non-commercial license),后 Llama 2 才改为开源友好许可。
- 预训练数据中仍然存在偏见和有害内容风险(论文承认但未充分缓解)。
- 仅评估了 zero-shot 和 few-shot 能力,未进行指令微调。