Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: rl
此标签下有3条笔记。
2026年5月07日
OpenAI o1 System Card
llm
openai
reasoning
rl
safety
2026年4月30日
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
deepseek
rl
reasoning
grpo
distillation
2026年4月30日
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
deepseek
sparse-attention
rl
agent
reasoning