Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: MoE
此标签下有26条笔记。
2026年4月30日
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
论文
代码模型
MoE
开源
Code-Intelligence
2026年4月30日
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
论文
LLM
MoE
MLA
高效推理
KV-Cache
2026年4月30日
DeepSeek-V3 Technical Report
论文
LLM
MoE
FP8训练
MTP
负载均衡
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
论文
多模态
Agent
RL
Agent-Swarm
并行Agent
视觉推理
MoE
2026年4月30日
Kimi K2: Open Agentic Intelligence
论文
LLM
MoE
Agent
MuonClip
RL
工具使用
2026年4月30日
Kimi-VL Technical Report
论文
多模态
VLM
MoE
OCR
Agent
长上下文
MoonViT
2026年4月30日
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
论文
LLM
推理模型
Lightning-Attention
混合注意力
CISPO
RL-Scaling
MoE
2026年4月30日
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
论文
MoE
稀疏模型
条件计算
语言模型
机器翻译
2026年4月30日
OneRec Technical Report
论文
生成推荐
MoE
RL
工业部署
Factorization-Machine
GRPO
2026年4月30日
OneRec-V2 Technical Report
论文
生成推荐
MoE
Scaling-Law
Lazy-Decoder
GRPO
工业部署
2026年4月30日
Qwen3 Technical Report
论文
LLM
MoE
推理
多语言
开源
蒸馏
2026年4月30日
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
论文
MoE
稀疏模型
语言模型
模型并行
蒸馏
2026年4月30日
gpt-oss-120b & gpt-oss-20b Model Card
论文
推理模型
MoE
开源
MXFP4
安全对齐
Agent
2026年4月30日
MLA 多头潜在注意力
MLA
注意力机制
KV-cache
推理效率
DeepSeek
MoE
2026年4月30日
MoE 混合专家模型
MoE
架构
DeepSeek
Kimi
Qwen
Google
Switch-Transformer
2026年4月30日
DeepSeek 系列模型
DeepSeek
LLM
MoE
推理模型
Agent
2026年4月30日
Kimi 系列模型
Kimi
Moonshot
LLM
MoE
多模态
Agent
2026年4月30日
Qwen3
Qwen
LLM
MoE
推理模型
蒸馏
2026年4月30日
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
DeepSeek-Coder-V2
代码生成
MoE
338语言
GPT-4级
2026年4月30日
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2
MLA
MoE
KV-cache
高效推理
2026年4月30日
Kimi K2: Open Agentic Intelligence
MoE
Agent
Kimi
RLVR
sparsity
2026年4月30日
Kimi-VL Technical Report
VLM
多模态
Kimi
MoE
MoonViT
2026年4月30日
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
MoE
条件计算
稀疏门控
Google-Brain
架构
2026年4月30日
OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment
generative-recommendation
session-wise-generation
DPO
preference-alignment
MoE
2026年4月30日
Qwen3 Technical Report
Qwen
推理模型
MoE
蒸馏
thinking-budget
2026年4月30日
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
MoE
Switch-Transformer
万亿参数
Google
架构