gpt-oss 开源推理模型

核心结论

OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b 两个开源权重推理模型（Apache 2.0）。120B 模型在代码和推理任务上达到 GPT-4.1 约 90-95% 性能。支持完整 CoT、结构化输出、工具使用（网络搜索和 Python 执行）和 Agent 工作流，兼容 Responses API。可调整推理努力程度（reasoning effort），为 Agentic 场景优化。

关键事实

发布方：OpenAI，2025
两个规模：gpt-oss-120b 和 gpt-oss-20b
许可：Apache 2.0 + gpt-oss usage policy
纯文本模型（非多模态）
特性：完整 CoT、结构化输出、可调推理努力、工具使用、Agent 工作流
安全考量：开源模型风险不同于 API 模型——无法撤销能力、无法后部署安全补丁
未达 OpenAI 内部高危评估阈值

方法或论证路径

模型卡（非系统卡）：因为开源后由第三方构建系统，OpenAI 无法控制完整系统安全
推理能力通过可调 reasoning effort 实现——简单任务调低 effort 节省计算
工具使用内置：原生支持 web search 和 Python 代码执行
安全评估：进行了可扩展能力评估，确定默认模型不达到内部高危阈值

与现有 Wiki 的关系

关联：大语言模型基础、GPT 系列模型、国产大模型演进
补充：OpenAI 首次大规模开源模型权重（Apache 2.0），与 DeepSeek/Kimi 的开源策略形成对比但范围不同
对比：120B 是 Dense 还是 MoE？文档未详细说明架构——这是信息缺口

可能的矛盾或待核实点

架构细节未公开：120B 是否是 MoE？与 GPT-4 的技术关系未说明
“未达高危阈值”的判断标准：OpenAI 的内部评估标准未完全透明

后续问题

gpt-oss 与 DeepSeek-V3/R1 的直接性能对比
开源后社区的微调和安全 bypass 实证

Blog1

探索

gpt-oss-120b & gpt-oss-20b Model Card