Blog1

标签: 对齐

此标签下有2条笔记。

  • 2026年4月30日

    Training language models to follow instructions with human feedback

    • 论文
    • NLP
    • 对齐
    • RLHF
    • 指令微调
    • PPO
  • 2026年4月30日

    DPO 直接偏好优化

    • DPO
    • RLHF
    • 对齐
    • 偏好学习

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community