Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: PPO
此标签下有3条笔记。
2026年4月30日
Training language models to follow instructions with human feedback
论文
NLP
对齐
RLHF
指令微调
PPO
2026年4月30日
GRPO 分组相对策略优化
GRPO
RL
强化学习
推理模型
DeepSeek
PPO
2026年4月30日
RLHF
RLHF
alignment
PPO
DPO
RL