一句话总结:本文是 GPT-4o 的系统卡(System Card),概述了一个端到端训练的全模态(omni)模型的准备框架(Preparedness Framework)评估结果,覆盖文本、音频、图像和视频输入及输出,重点关注多模态安全风险,包括语音生成、说话人识别、未经授权的推断和违规内容生成等。


Intro

Motivation

GPT-4o 是 OpenAI 的第一个”全模态”模型,能同时理解和生成文本、音频、图像和视频。这种全模态能力虽然强大,但也带来了传统纯文本 LLM 所不具备的新安全风险:

  1. 语音生成:模型能生成逼真的语音,可能被用于冒充、欺诈
  2. 说话人识别:模型可能识别音频中的说话人身份
  3. 多模态不安全内容:图像/音频生成的违规内容更难检测
  4. 未经授权的推断:从多模态输入中推断用户的敏感属性

贡献

  1. GPT-4o:一个同时支持文本/音频/图像/视频输入和文本/音频/图像输出的全模态模型
  2. Preparedness Framework 评估:系统性地评估了语音、视觉、文本等各模态的安全风险
  3. 安全缓解措施:预设语音(仅限演员录制)、输出分类器、TTS-based 安全评估等
  4. 多语言安全测试:45 种语言、29 个国家的外部红队测试

Method 核心方法

1. 模型能力概览

  • 输入模态:文本、音频、图像、视频
  • 输出模态:文本、音频、图像
  • 音频延迟:平均 232ms(接近人类对话延迟)
  • 端到端训练:所有模态在一个训练框架下联合优化

2. 准备框架(Preparedness Framework)

OpenAI 采用四级风险评估体系(Low / Medium / High / Critical),覆盖以下维度:

  • 语音生成与说话人识别
  • 视觉内容安全
  • 多模态越狱(Jailbreak)
  • 违规内容生成
  • 隐私与推断

3. 安全机制

语音安全

  • 仅使用预设语音(由演员录制),不允许自定义语音生成
  • 输出音频通过分类器检测是否匹配预设声音
  • 使用 TTS 技术反向评估语音生成的安全性

内容安全

  • 多模态输出分类器:检测图像/音频中的不安全内容
  • 识别和阻止违反使用政策的内容

多语言测试

  • 100+ 外部红队成员
  • 覆盖 45 种语言、29 个国家
  • 评估文化特定语境下的安全风险

实验/评估/结果

主要安全风险及评估

风险类别风险等级缓解措施
未授权语音生成Medium仅限预设语音,输出分类器
说话人识别Medium阻断相关请求
多模态越狱Medium持续的对抗训练和监控
违规图像/音频生成Medium多模态输出分类器
隐私推断Low-Medium数据最小化原则

关键发现

  1. 语音生成的安全边界:模型能从短音频片段生成相似的语音,但有预设语音限制和输出分类器的双保险机制
  2. 视觉安全:图像生成存在生成不安全/违规内容的风险,通过多层级过滤缓解
  3. 文化敏感的违规内容:多语言测试暴露了文化特定语境下的违规内容,需要针对性调整
  4. 违规内容生成在可控范围内:整体风险被评为 Medium,未达到”High”或”Critical”水平

残存风险

  • 越狱攻击仍然存在
  • 在某些边界 case 下内容过滤器可能被绕过
  • 长对话上下文中安全性可能下降

结论

GPT-4o 通过系统化的安全评估和多方位的缓解措施,在保持全模态能力的同时将安全风险控制在可控范围内。准备框架提供了结构化的风险评估方法论。但多模态安全的挑战远未解决,持续的监控和迭代改进是必要的。


思考

优点

  1. 全模态端到端训练的技术突破:在单模型中同时支持文本/音频/图像/视频的理解和生成,232ms 音频延迟接近人类对话,技术实现难度极高。

  2. 安全评估的系统性:准备框架的四级评估体系是合理且可操作的安全治理方法论。45 种语言的红队测试也远超行业平均水平。

  3. 语音安全的务实方案:仅限预设语音的决策放弃了”任何声音都能生成”的灵活性,但换取了明确的语音冒充防护。这是一个负责任的 trade-off。

缺点与局限

  1. 同样缺乏技术细节:和 GPT-4 Technical Report 一样,这也不是一篇传统意义上的技术论文。架构、规模、训练数据、训练方法等全部缺失。System Card 侧重安全评估而非技术方法。

  2. 安全评估的深度不够:报告主要是定性描述和风险评级,缺少定量的安全基准测试结果。很多结论是笼统的(如”风险为 Medium”),没有细粒度数据支撑。

  3. 越狱问题的有限解决:报告承认越狱仍然存在但没有给出显著的改进方法。对于多模态特有的越狱(如通过图像注入指令),讨论不充分。

  4. 隐私推断评估不足:模型可能从音频/图像中推断用户的心理状态、情绪、年龄等敏感属性。这一问题报告仅做了初步讨论。

与已有 Wiki 的连接