Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: GRPO
此标签下有12条笔记。
2026年5月07日
Gen-Searcher
image-generation
agent
reinforcement-learning
search
multimodal
GRPO
2026年4月30日
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
论文
推理
强化学习
RL
GRPO
蒸馏
DeepSeek
LLM
2026年4月30日
Emu3.5: Native Multimodal Models are World Learners
论文
多模态
原生多模态
世界模型
自回归
扩散模型
GRPO
图像生成
Tokens
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文
多模态
统一模型
离散扩散
DiMOO
GRPO
图像生成
Params
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
论文
多模态
图像生成
图像编辑
In-Context生成
GRPO
指令对齐
Omni-RoPE
2026年4月30日
OneRec Technical Report
论文
生成推荐
MoE
RL
工业部署
Factorization-Machine
GRPO
2026年4月30日
OneRec-Think: In-Text Reasoning for Generative Recommendation
论文
生成推荐
推理增强
CoT
GRPO
LLM
2026年4月30日
OneRec-V2 Technical Report
论文
生成推荐
MoE
Scaling-Law
Lazy-Decoder
GRPO
工业部署
2026年4月30日
推理模型训练方法比较 DeepSeek-R1 vs Kimi k1.5 vs Qwen3
推理模型
DeepSeek
Kimi
Qwen
RL
GRPO
训练方法
对比
2026年4月30日
GRPO 分组相对策略优化
GRPO
RL
强化学习
推理模型
DeepSeek
PPO
2026年4月30日
推理模型与强化学习
推理模型
RL
GRPO
CoT
强化学习
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
论文
多模态
图像生成
图像编辑
In-Context生成
GRPO
指令对齐
Omni-RoPE