Blog1

标签: DPO

此标签下有5条笔记。

  • 2026年5月11日

    The Llama 3 Herd of Models

    • Llama-3
    • open-source
    • scaling
    • DPO
    • Meta
  • 2026年4月30日

    OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment

    • 论文
    • 生成推荐
    • 偏好对齐
    • DPO
    • 召回
    • 排序
  • 2026年4月30日

    DPO 直接偏好优化

    • DPO
    • RLHF
    • 对齐
    • 偏好学习
  • 2026年4月30日

    RLHF

    • RLHF
    • alignment
    • PPO
    • DPO
    • RL
  • 2026年4月30日

    OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment

    • generative-recommendation
    • session-wise-generation
    • DPO
    • preference-alignment
    • MoE

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community