一句话总结:本文是 GPT-4o 的系统卡(System Card),概述了一个端到端训练的全模态(omni)模型的准备框架(Preparedness Framework)评估结果,覆盖文本、音频、图像和视频输入及输出,重点关注多模态安全风险,包括语音生成、说话人识别、未经授权的推断和违规内容生成等。
Intro
Motivation
GPT-4o 是 OpenAI 的第一个”全模态”模型,能同时理解和生成文本、音频、图像和视频。这种全模态能力虽然强大,但也带来了传统纯文本 LLM 所不具备的新安全风险:
- 语音生成:模型能生成逼真的语音,可能被用于冒充、欺诈
- 说话人识别:模型可能识别音频中的说话人身份
- 多模态不安全内容:图像/音频生成的违规内容更难检测
- 未经授权的推断:从多模态输入中推断用户的敏感属性
贡献
- GPT-4o:一个同时支持文本/音频/图像/视频输入和文本/音频/图像输出的全模态模型
- Preparedness Framework 评估:系统性地评估了语音、视觉、文本等各模态的安全风险
- 安全缓解措施:预设语音(仅限演员录制)、输出分类器、TTS-based 安全评估等
- 多语言安全测试:45 种语言、29 个国家的外部红队测试
Method 核心方法
1. 模型能力概览
- 输入模态:文本、音频、图像、视频
- 输出模态:文本、音频、图像
- 音频延迟:平均 232ms(接近人类对话延迟)
- 端到端训练:所有模态在一个训练框架下联合优化
2. 准备框架(Preparedness Framework)
OpenAI 采用四级风险评估体系(Low / Medium / High / Critical),覆盖以下维度:
- 语音生成与说话人识别
- 视觉内容安全
- 多模态越狱(Jailbreak)
- 违规内容生成
- 隐私与推断
3. 安全机制
语音安全:
- 仅使用预设语音(由演员录制),不允许自定义语音生成
- 输出音频通过分类器检测是否匹配预设声音
- 使用 TTS 技术反向评估语音生成的安全性
内容安全:
- 多模态输出分类器:检测图像/音频中的不安全内容
- 识别和阻止违反使用政策的内容
多语言测试:
- 100+ 外部红队成员
- 覆盖 45 种语言、29 个国家
- 评估文化特定语境下的安全风险
实验/评估/结果
主要安全风险及评估
| 风险类别 | 风险等级 | 缓解措施 |
|---|---|---|
| 未授权语音生成 | Medium | 仅限预设语音,输出分类器 |
| 说话人识别 | Medium | 阻断相关请求 |
| 多模态越狱 | Medium | 持续的对抗训练和监控 |
| 违规图像/音频生成 | Medium | 多模态输出分类器 |
| 隐私推断 | Low-Medium | 数据最小化原则 |
关键发现
- 语音生成的安全边界:模型能从短音频片段生成相似的语音,但有预设语音限制和输出分类器的双保险机制
- 视觉安全:图像生成存在生成不安全/违规内容的风险,通过多层级过滤缓解
- 文化敏感的违规内容:多语言测试暴露了文化特定语境下的违规内容,需要针对性调整
- 违规内容生成在可控范围内:整体风险被评为 Medium,未达到”High”或”Critical”水平
残存风险
- 越狱攻击仍然存在
- 在某些边界 case 下内容过滤器可能被绕过
- 长对话上下文中安全性可能下降
结论
GPT-4o 通过系统化的安全评估和多方位的缓解措施,在保持全模态能力的同时将安全风险控制在可控范围内。准备框架提供了结构化的风险评估方法论。但多模态安全的挑战远未解决,持续的监控和迭代改进是必要的。
思考
优点
-
全模态端到端训练的技术突破:在单模型中同时支持文本/音频/图像/视频的理解和生成,232ms 音频延迟接近人类对话,技术实现难度极高。
-
安全评估的系统性:准备框架的四级评估体系是合理且可操作的安全治理方法论。45 种语言的红队测试也远超行业平均水平。
-
语音安全的务实方案:仅限预设语音的决策放弃了”任何声音都能生成”的灵活性,但换取了明确的语音冒充防护。这是一个负责任的 trade-off。
缺点与局限
-
同样缺乏技术细节:和 GPT-4 Technical Report 一样,这也不是一篇传统意义上的技术论文。架构、规模、训练数据、训练方法等全部缺失。System Card 侧重安全评估而非技术方法。
-
安全评估的深度不够:报告主要是定性描述和风险评级,缺少定量的安全基准测试结果。很多结论是笼统的(如”风险为 Medium”),没有细粒度数据支撑。
-
越狱问题的有限解决:报告承认越狱仍然存在但没有给出显著的改进方法。对于多模态特有的越狱(如通过图像注入指令),讨论不充分。
-
隐私推断评估不足:模型可能从音频/图像中推断用户的心理状态、情绪、年龄等敏感属性。这一问题报告仅做了初步讨论。
与已有 Wiki 的连接
- 关联概念:System Card、Preparedness Framework、语音安全、多模态安全
- 关联论文:GPT-4(前代模型的技术报告)、InstructGPT(RLHF 方法论基础)
- 关联实体:GPT-4o、ChatGPT
- 关联问题:全模态模型的安全性是否必然比纯文本模型更难保障