LoRA 低秩适配

核心结论

LoRA(Low-Rank Adaptation)提出了一种参数高效的大模型微调方法:冻结预训练权重,在 Transformer 每层注入可训练的秩分解矩阵(低秩矩阵 A 和 B)。相比全量微调,LoRA 将可训练参数减少 10000 倍,GPU 显存需求降低 3 倍,且无额外推理延迟(因为可合并到原权重中)。在 RoBERTa、DeBERTa、GPT-2、GPT-3 上性能持平或优于全量微调。

关键事实

  • 作者:Edward Hu、Yelong Shen 等(Microsoft),2021
  • 核心思想:预训练权重 W0 冻结,微调增量 ΔW 分解为低秩矩阵 BA(r << d),W = W0 + BA
  • 对 GPT-3 175B:可训练参数从 175B 降至 4.7M(~37000 倍减少)
  • 秩 r 可以非常小(1-4 即可),验证了语言模型适配的低秩性(intrinsic rank-deficiency)
  • 支持多任务部署:每个任务只需存储独立的 LoRA 权重,不会导致存储爆炸

方法或论证路径

  • 将全量微调增量 ΔW 参数化为一对低秩矩阵的乘积,秩 r 远小于原始维度
  • 仅对 Q(query)和 V(value)投影矩阵注入 LoRA;实验证明这是最有效的选择
  • 训练时只需计算低秩矩阵梯度,推理时 BA 可合并回原权重无额外延迟
  • 在多个 NLU 和 NLG 任务上系统的消融实验验证了秩选择和注入位置的影响

与现有 Wiki 的关系

  • 关联:LoRA 低秩适配大语言模型基础
  • 补充:LoRA 已是 Stable Diffusion 生态中标准微调方法(广泛应用于扩散模型微调),本来源提供基础理论解释
  • 与其他高效微调方法(Adapter、Prefix Tuning)的关系需后续补充

可能的矛盾或待核实点

  • 论文仅验证了 NLP 任务,在扩散模型图像生成中的 LoRA 行为是否存在差异

后续问题

  • LoRA 在扩散模型(SD/FLUX)中与传统 NLP 场景有何不同?
  • 多个 LoRA 合并时的权重冲突问题如何解决?