VisionCreator

基本信息

属性
全称VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation
作者Jinxiang Lai, Zexin Lu, et al.
机构Tencent Hunyuan + 港科大
年份2026 (arXiv 2603.02681)
类型原生视觉生成 Agent 模型

核心创新

提出 UTPC 框架,将图像生成统一为四个阶段:理解 → 思考 → 规划 → 创建。这是目前 Agent 生成模型中最完整的认知流程

VisionCreator:
  Understanding → Thinking → Planning → Creation
  (理解需求)     (设计方案)   (空间布局)   (执行生成)

UTPC 框架详解

阶段核心能力具体做什么
Understanding视觉理解分析用户需求、解读参考图像、识别约束条件
Thinking创意推理设计多种创意方案、权衡风格和可行性
Planning空间规划确定视觉元素的位置、大小、层次关系
Creation执行生成端到端生成/编辑图像

训练创新

Progressive Specialization Training (PST)

分阶段训练,逐步解锁能力:

阶段1: 只训练 Understanding → 模型先学会"看懂"
阶段2: + Thinking              → 模型学会"想清楚"
阶段3: + Planning              → 模型学会"布局"
阶段4: + Creation              → 模型最终学会"画出来"

这避免了 “一次性全训” 导致的灾难性遗忘。

Virtual Reinforcement Learning (VRL)

  • 在高保真模拟环境中自动评估生成质量
  • 不需要人类反馈即可优化生成策略
  • 解决了 RLHF 依赖大量人类标注的瓶颈

三大 Agent 模型的完整对比

维度GoTMind-BrushVisionCreator
认知流程推理 → 生成Think → Research → CreateU → T → P → C
知识获取内部先验外部检索内部先验
训练方法监督微调Agent 工作流PST + VRL
强化学习VRL(无人类反馈)
BenchmarkMind-Bench (500)VisGenBench (1.2K)
优势推理链可解释实时知识接地最完整认知流程
弱点无法处理 OOD检索质量依赖外部流程复杂,训练成本高

关键判断

VisionCreator 是 Agent 路线中最激进的:它试图用一个模型完成从理解到创建的全部工作。但这带来了一个问题:

Agent 是必要的复杂度,还是过早的 over-engineering?

  • 对于 90% 的用户需求(“画一只猫”),直接生成就够了
  • 对于 9% 的需求(“画一只穿宇航服的猫在月球上”),GoT 级别的推理就够
  • 对于 1% 的需求(“设计一个符合唐代建筑规范的寺庙鸟瞰图”),才需要 VisionCreator 的全流程

最优系统可能不是”全 Agent”,而是路由式:简单需求走快速通道,复杂需求激活 UTPC。

在 Wiki 中的关联