Blog1

标签: PPO

此标签下有3条笔记。

  • 2026年4月30日

    Training language models to follow instructions with human feedback

    • 论文
    • NLP
    • 对齐
    • RLHF
    • 指令微调
    • PPO
  • 2026年4月30日

    GRPO 分组相对策略优化

    • GRPO
    • RL
    • 强化学习
    • 推理模型
    • DeepSeek
    • PPO
  • 2026年4月30日

    RLHF

    • RLHF
    • alignment
    • PPO
    • DPO
    • RL

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community