Blog1

标签: RLHF

此标签下有6条笔记。

  • 2026年5月11日

    Training Language Models to Follow Instructions with Human Feedback

    • InstructGPT
    • RLHF
    • alignment
    • instruction-following
    • OpenAI
  • 2026年4月30日

    GPT-4 Technical Report

    • 论文
    • 大语言模型
    • 多模态
    • GPT-4
    • RLHF
    • Safety
  • 2026年4月30日

    Training language models to follow instructions with human feedback

    • 论文
    • NLP
    • 对齐
    • RLHF
    • 指令微调
    • PPO
  • 2026年4月30日

    Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

    • 论文
    • 图像生成
    • 双语生成
    • 中英文
    • DiT
    • LLM文本编码器
    • RLHF
  • 2026年4月30日

    DPO 直接偏好优化

    • DPO
    • RLHF
    • 对齐
    • 偏好学习
  • 2026年4月30日

    RLHF

    • RLHF
    • alignment
    • PPO
    • DPO
    • RL

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community