Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: RL
此标签下有17条笔记。
2026年5月01日
审美评估与推理
aesthetic
evaluation
IAA
RL
image-quality
2026年4月30日
Competitive Programming with Large Reasoning Models
论文
推理
竞赛编程
o1
o3
CodeForces
IOI
RL
2026年4月30日
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
论文
推理
强化学习
RL
GRPO
蒸馏
DeepSeek
LLM
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
论文
多模态
Agent
RL
Agent-Swarm
并行Agent
视觉推理
MoE
2026年4月30日
Kimi K2: Open Agentic Intelligence
论文
LLM
MoE
Agent
MuonClip
RL
工具使用
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
论文
推理
RL
长上下文
多模态
训练基础设施
Long2Short
2026年4月30日
OneRec Technical Report
论文
生成推荐
MoE
RL
工业部署
Factorization-Machine
GRPO
2026年4月30日
推理模型训练方法比较 DeepSeek-R1 vs Kimi k1.5 vs Qwen3
推理模型
DeepSeek
Kimi
Qwen
RL
GRPO
训练方法
对比
2026年4月30日
GRPO 分组相对策略优化
GRPO
RL
强化学习
推理模型
DeepSeek
PPO
2026年4月30日
RLHF
RLHF
alignment
PPO
DPO
RL
2026年4月30日
推理模型与强化学习
推理模型
RL
GRPO
CoT
强化学习
2026年4月30日
知识蒸馏 vs RL 哪种方式更能有效获得推理能力
推理模型
知识蒸馏
RL
推理能力
效率
2026年4月30日
Aes-R1: Unlocking the Essence of Beauty — Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization
aesthetic
IAA
reasoning
RL
MLLM
2026年4月30日
Competitive Programming with Large Reasoning Models
reasoning-model
competitive-programming
RL
o3
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
多模态
Agent
Kimi
视觉
RL
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
RL
推理模型
Kimi
long2short
多模态
2026年4月30日
推理增强方法
reasoning
prompting
chain-of-thought
RL