Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: 强化学习
此标签下有3条笔记。
2026年4月30日
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
论文
推理
强化学习
RL
GRPO
蒸馏
DeepSeek
LLM
2026年4月30日
GRPO 分组相对策略优化
GRPO
RL
强化学习
推理模型
DeepSeek
PPO
2026年4月30日
推理模型与强化学习
推理模型
RL
GRPO
CoT
强化学习