Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: 推理模型
此标签下有15条笔记。
2026年4月30日
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
论文
LLM
推理模型
Lightning-Attention
混合注意力
CISPO
RL-Scaling
MoE
2026年4月30日
gpt-oss-120b & gpt-oss-20b Model Card
论文
推理模型
MoE
开源
MXFP4
安全对齐
Agent
2026年4月30日
推理模型训练方法比较 DeepSeek-R1 vs Kimi k1.5 vs Qwen3
推理模型
DeepSeek
Kimi
Qwen
RL
GRPO
训练方法
对比
2026年4月30日
GRPO 分组相对策略优化
GRPO
RL
强化学习
推理模型
DeepSeek
PPO
2026年4月30日
推理模型与强化学习
推理模型
RL
GRPO
CoT
强化学习
2026年4月30日
测试时计算扩展
test-time-compute
推理模型
scaling
MiniMax
DeepSeek
2026年4月30日
知识蒸馏
知识蒸馏
推理模型
模型压缩
能力迁移
DeepSeek
Kimi
2026年4月30日
DeepSeek 系列模型
DeepSeek
LLM
MoE
推理模型
Agent
2026年4月30日
Qwen3
Qwen
LLM
MoE
推理模型
蒸馏
2026年4月30日
为什么 MCTS 在 LLM 推理中失败了
推理增强
推理模型
MCTS
搜索
2026年4月30日
知识蒸馏 vs RL 哪种方式更能有效获得推理能力
推理模型
知识蒸馏
RL
推理能力
效率
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
RL
推理模型
Kimi
long2short
多模态
2026年4月30日
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
MiniMax-M1
Lightning-Attention
test-time-compute
推理模型
CISPO
2026年4月30日
Qwen3 Technical Report
Qwen
推理模型
MoE
蒸馏
thinking-budget
2026年4月30日
gpt-oss-120b & gpt-oss-20b Model Card
gpt-oss
OpenAI
开源模型
推理模型
Apache-2.0