OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

USTC + Kling Team + 北大 + 南大 + 中科院 + 清华，2025。

核心结论

统一多模态模型的图像生成/编辑能力受限于训练数据的质量和覆盖度。
提出 OpenGPT-4o-Image：基于层级任务分类 + 自动化数据生成构建。
80K 高质量指令-图像对，覆盖 10+ 任务类别。

数据特点

层级任务分类 (Hierarchical Task Taxonomy)

层级	示例
基础能力	文本渲染、风格控制
中级能力	物体替换、场景变换
高级能力	化学插图等科学图像、多指令同步编辑

独特价值

覆盖了科学图像（化学插图）等很少被其他数据集覆盖的领域
复杂指令编辑：要求同时执行多个操作的编辑任务

与现有 Wiki 的关系

关联：扩散模型图像编辑与生成
层级分类方法提供了一种系统化的编辑任务思考框架
来自 Kling Team（快手可灵），代表了工业界的编辑数据实践