Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: 对齐
此标签下有2条笔记。
2026年4月30日
Training language models to follow instructions with human feedback
论文
NLP
对齐
RLHF
指令微调
PPO
2026年4月30日
DPO 直接偏好优化
DPO
RLHF
对齐
偏好学习