Step1X-Edit

基本信息

属性
全称Step1X-Edit: A Practical Framework for General Image Editing
作者Step1X-Image Team
机构StepFun(阶跃星辰)
年份2025 (arXiv 2504.17761)
类型MLLM + Diffusion 混合编辑模型

定位

对标 GPT-4o / Gemini2 Flash 的开源图像编辑方案。目标是缩小开源模型与闭源模型在图像编辑能力上的差距。

架构

参考图像 + 编辑指令
      ↓
  MLLM 编码(理解意图 + 图像内容)
      ↓
  Latent Embedding(编辑意图 + 视觉信息)
      ↓
  扩散图像解码器 → 目标图像

端到端联合训练,MLLM 提供深层指令理解,扩散解码器保证图像质量。

数据与评估

  • 训练数据:自建数据生成管线,覆盖 11 种编辑任务
  • GEdit-Bench:基于真实用户指令的新型 benchmark(非模板生成),更贴近实际使用场景

在编辑演进中的位置

代表了从”纯扩散编辑”到 MLLM-guided 扩散 的架构演进:

InstructPix2Pix (纯扩散)
  → Step1X-Edit (MLLM + 扩散)
    → GPT-4o / Gemini Flash (MLLM 原生编辑)

与 InstructPix2Pix 的关键区别:MLLM 在编码指令时已融入场景理解,可以处理”让这张图更有氛围感”这类模糊指令。

在 Wiki 中的关联