GPT-4o System Card

一句话总结：本文是 GPT-4o 的系统卡（System Card），概述了一个端到端训练的全模态（omni）模型的准备框架（Preparedness Framework）评估结果，覆盖文本、音频、图像和视频输入及输出，重点关注多模态安全风险，包括语音生成、说话人识别、未经授权的推断和违规内容生成等。

Intro

Motivation

GPT-4o 是 OpenAI 的第一个”全模态”模型，能同时理解和生成文本、音频、图像和视频。这种全模态能力虽然强大，但也带来了传统纯文本 LLM 所不具备的新安全风险：

语音生成：模型能生成逼真的语音，可能被用于冒充、欺诈
说话人识别：模型可能识别音频中的说话人身份
多模态不安全内容：图像/音频生成的违规内容更难检测
未经授权的推断：从多模态输入中推断用户的敏感属性

贡献

GPT-4o：一个同时支持文本/音频/图像/视频输入和文本/音频/图像输出的全模态模型
Preparedness Framework 评估：系统性地评估了语音、视觉、文本等各模态的安全风险
安全缓解措施：预设语音（仅限演员录制）、输出分类器、TTS-based 安全评估等
多语言安全测试：45 种语言、29 个国家的外部红队测试

Method 核心方法

1. 模型能力概览

输入模态：文本、音频、图像、视频
输出模态：文本、音频、图像
音频延迟：平均 232ms（接近人类对话延迟）
端到端训练：所有模态在一个训练框架下联合优化

2. 准备框架（Preparedness Framework）

OpenAI 采用四级风险评估体系（Low / Medium / High / Critical），覆盖以下维度：

语音生成与说话人识别
视觉内容安全
多模态越狱（Jailbreak）
违规内容生成
隐私与推断

3. 安全机制

语音安全：

仅使用预设语音（由演员录制），不允许自定义语音生成
输出音频通过分类器检测是否匹配预设声音
使用 TTS 技术反向评估语音生成的安全性

内容安全：

多模态输出分类器：检测图像/音频中的不安全内容
识别和阻止违反使用政策的内容

多语言测试：

100+ 外部红队成员
覆盖 45 种语言、29 个国家
评估文化特定语境下的安全风险

实验/评估/结果

主要安全风险及评估

风险类别	风险等级	缓解措施
未授权语音生成	Medium	仅限预设语音，输出分类器
说话人识别	Medium	阻断相关请求
多模态越狱	Medium	持续的对抗训练和监控
违规图像/音频生成	Medium	多模态输出分类器
隐私推断	Low-Medium	数据最小化原则

关键发现

语音生成的安全边界：模型能从短音频片段生成相似的语音，但有预设语音限制和输出分类器的双保险机制
视觉安全：图像生成存在生成不安全/违规内容的风险，通过多层级过滤缓解
文化敏感的违规内容：多语言测试暴露了文化特定语境下的违规内容，需要针对性调整
违规内容生成在可控范围内：整体风险被评为 Medium，未达到”High”或”Critical”水平

残存风险

越狱攻击仍然存在
在某些边界 case 下内容过滤器可能被绕过
长对话上下文中安全性可能下降

结论

GPT-4o 通过系统化的安全评估和多方位的缓解措施，在保持全模态能力的同时将安全风险控制在可控范围内。准备框架提供了结构化的风险评估方法论。但多模态安全的挑战远未解决，持续的监控和迭代改进是必要的。

思考

优点

全模态端到端训练的技术突破：在单模型中同时支持文本/音频/图像/视频的理解和生成，232ms 音频延迟接近人类对话，技术实现难度极高。
安全评估的系统性：准备框架的四级评估体系是合理且可操作的安全治理方法论。45 种语言的红队测试也远超行业平均水平。
语音安全的务实方案：仅限预设语音的决策放弃了”任何声音都能生成”的灵活性，但换取了明确的语音冒充防护。这是一个负责任的 trade-off。

缺点与局限

同样缺乏技术细节：和 GPT-4 Technical Report 一样，这也不是一篇传统意义上的技术论文。架构、规模、训练数据、训练方法等全部缺失。System Card 侧重安全评估而非技术方法。
安全评估的深度不够：报告主要是定性描述和风险评级，缺少定量的安全基准测试结果。很多结论是笼统的（如”风险为 Medium”），没有细粒度数据支撑。
越狱问题的有限解决：报告承认越狱仍然存在但没有给出显著的改进方法。对于多模态特有的越狱（如通过图像注入指令），讨论不充分。
隐私推断评估不足：模型可能从音频/图像中推断用户的心理状态、情绪、年龄等敏感属性。这一问题报告仅做了初步讨论。

与已有 Wiki 的连接

关联概念：System Card、Preparedness Framework、语音安全、多模态安全
关联论文：GPT-4（前代模型的技术报告）、InstructGPT（RLHF 方法论基础）
关联实体：GPT-4o、ChatGPT
关联问题：全模态模型的安全性是否必然比纯文本模型更难保障

Blog1

探索