Blog1

❯

❯

❯

GPT-4o

2026年4月30日5分钟阅读

GPT-4o
OpenAI
多模态
omni
LLM

GPT-4o

简介

GPT-4o（“o” for “omni”）是 OpenAI 于 2024 年 5 月发布的多模态大模型。它是首个端到端原生多模态（文本+视觉+音频）训练的大规模模型，在语音交互延迟（最低 232ms）、多模态理解和生成效率上相比 GPT-4 有质的飞跃。

GPT-4o 是 GPT 系列从”文本为中心”走向”全模态原生”的关键转折，也是 OpenAI “omni-model” 愿景的第一个实质性产品。

技术特性

全模态统一

输入/输出：文本、图像、音频三者统一处理
所有模态在同一个 Transformer 中处理（不是分离编码器拼接）
端到端训练：tokenization、理解和生成全部在一个模型中

语音交互的革命性改进

GPT-3.5/GPT-4 语音模式：语音→ASR 转文本→GPT→TTS 转语音（三级流水线，延迟 2.8s/5.4s）
GPT-4o：语音直接 tokenize→单一模型处理→语音 token 输出（延迟 232ms 平均，最高 320ms）
这消除了流水线中的信息损失（如语调、情感、环境音在 ASR 中被丢弃）

多模态生成

支持图像生成和编辑（在 2024 年逐步开放）
图像生成质量在 2025 年达到可用水平（以”GPT-4o Image Generation”品牌发布）

效率提升

相比 GPT-4 Turbo：速度快 2 倍、价格降 50%、速率限制高 5 倍
多语言 token 压缩：许多语言 token 量减少到原来的 1/1.6-1/4.4

评估和能力

文本与推理

在 MMLU、MATH、HumanEval 等基准上达到 GPT-4 Turbo 同等或更高水平
在 0-shot COT 推理上与 GPT-4 Turbo 持平

多模态理解

视觉理解能力大幅超越 GPT-4V（GPT-4 with Vision）
音频理解和生成能力从无到有

多语言

非英语语言 token 效率大幅提升
多语言性能显著优于 GPT-4 Turbo

安全与红队测试

GPT-4o 的 System Card 披露了广泛的 red team 测试结果：

外部 red team：邀请 100+ 外部专家测试（心理学、网络安全、生物风险等）
多模态风险：音频输入带来的新风险（说话人识别、情绪操纵、deepfake）
缓解措施：输出分类器、CBRN 风险过滤、年龄验证等

与已有 Wiki 的连接

关联概念：GPT 系列模型（GPT-4o 是 GPT 系列的最新代际）、原生多模态模型（全模态统一的实践）、CLIP 对比语言图像预训练（视觉能力的间接基础）
关联实体：DeepSeek 系列模型（开源对标）、Qwen3（国产对标）
所在主题：大语言模型基础

批判性评估

GPT-4o 的真正意义：全模态不是功能，是效率

将 GPT-4o 简单理解为”GPT-4 + 图像 + 语音”是错误的。它的核心突破在于消除了模态转换的信息瓶颈：

语音对话不再是 ASR→文本→TTS 的破碎流水线，而是连续的语音 embedding 流
这使模型能感知语调、情感、停顿、环境音——传统流水线无法传递的信息
这是从”多模态拼贴”到”统一感知”的本质变化

被低估的 token 效率革命

GPT-4o 对非英语语言的 token 压缩（部分语言减少到 1/4）是一个容易被忽视但实际影响巨大的改进。对全球用户而言，这意味着：

非英语使用成本大幅降低
长上下文对非英语内容更友好
这是”AI 民主化”的基础设施级别的贡献

悬而未决的问题

全模态生成的延迟：图像生成在 GPT-4o 中仍然是慢速操作（秒级），距离”实时多模态交互”仍有距离
音频输出的安全边界：GPT-4o 可以生成”带有特定情感的语音”，这带来了 deepfake 音频的社会风险
与专用模型的性价比：在单纯的文本任务上，GPT-4o 是否比更便宜的文本专用模型（如 GPT-4o-mini 或 DeepSeek-V3）有优势，需要具体任务评估

关系图谱

GPT-4o
简介
技术特性
全模态统一
语音交互的革命性改进
多模态生成
效率提升
评估和能力
文本与推理
多模态理解
多语言
安全与红队测试
与已有 Wiki 的连接
批判性评估
GPT-4o 的真正意义：全模态不是功能，是效率
被低估的 token 效率革命
悬而未决的问题

反向链接

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community