Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: DPO
此标签下有5条笔记。
2026年5月11日
The Llama 3 Herd of Models
Llama-3
open-source
scaling
DPO
Meta
2026年4月30日
OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment
论文
生成推荐
偏好对齐
DPO
召回
排序
2026年4月30日
DPO 直接偏好优化
DPO
RLHF
对齐
偏好学习
2026年4月30日
RLHF
RLHF
alignment
PPO
DPO
RL
2026年4月30日
OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment
generative-recommendation
session-wise-generation
DPO
preference-alignment
MoE