Blog1

标签: 指令微调

此标签下有1条笔记。

  • 2026年4月30日

    Training language models to follow instructions with human feedback

    • 论文
    • NLP
    • 对齐
    • RLHF
    • 指令微调
    • PPO

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community