Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: RLHF
此标签下有6条笔记。
2026年5月11日
Training Language Models to Follow Instructions with Human Feedback
InstructGPT
RLHF
alignment
instruction-following
OpenAI
2026年4月30日
GPT-4 Technical Report
论文
大语言模型
多模态
GPT-4
RLHF
Safety
2026年4月30日
Training language models to follow instructions with human feedback
论文
NLP
对齐
RLHF
指令微调
PPO
2026年4月30日
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
论文
图像生成
双语生成
中英文
DiT
LLM文本编码器
RLHF
2026年4月30日
DPO 直接偏好优化
DPO
RLHF
对齐
偏好学习
2026年4月30日
RLHF
RLHF
alignment
PPO
DPO
RL