VisionCreator

基本信息

属性	值
全称	VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation
作者	Jinxiang Lai, Zexin Lu, et al.
机构	Tencent Hunyuan + 港科大
年份	2026 (arXiv 2603.02681)
类型	原生视觉生成 Agent 模型

核心创新

提出 UTPC 框架，将图像生成统一为四个阶段：理解 → 思考 → 规划 → 创建。这是目前 Agent 生成模型中最完整的认知流程。

VisionCreator:
  Understanding → Thinking → Planning → Creation
  (理解需求)     (设计方案)   (空间布局)   (执行生成)

UTPC 框架详解

阶段	核心能力	具体做什么
Understanding	视觉理解	分析用户需求、解读参考图像、识别约束条件
Thinking	创意推理	设计多种创意方案、权衡风格和可行性
Planning	空间规划	确定视觉元素的位置、大小、层次关系
Creation	执行生成	端到端生成/编辑图像

训练创新

Progressive Specialization Training (PST)

分阶段训练，逐步解锁能力：

阶段1: 只训练 Understanding → 模型先学会"看懂"
阶段2: + Thinking              → 模型学会"想清楚"
阶段3: + Planning              → 模型学会"布局"
阶段4: + Creation              → 模型最终学会"画出来"

这避免了 “一次性全训” 导致的灾难性遗忘。

Virtual Reinforcement Learning (VRL)

在高保真模拟环境中自动评估生成质量
不需要人类反馈即可优化生成策略
解决了 RLHF 依赖大量人类标注的瓶颈

三大 Agent 模型的完整对比

维度	GoT	Mind-Brush	VisionCreator
认知流程	推理 → 生成	Think → Research → Create	U → T → P → C
知识获取	内部先验	外部检索	内部先验
训练方法	监督微调	Agent 工作流	PST + VRL
强化学习	无	无	VRL（无人类反馈）
Benchmark	无	Mind-Bench (500)	VisGenBench (1.2K)
优势	推理链可解释	实时知识接地	最完整认知流程
弱点	无法处理 OOD	检索质量依赖外部	流程复杂，训练成本高

关键判断

VisionCreator 是 Agent 路线中最激进的：它试图用一个模型完成从理解到创建的全部工作。但这带来了一个问题：

Agent 是必要的复杂度，还是过早的 over-engineering？

对于 90% 的用户需求（“画一只猫”），直接生成就够了
对于 9% 的需求（“画一只穿宇航服的猫在月球上”），GoT 级别的推理就够
对于 1% 的需求（“设计一个符合唐代建筑规范的寺庙鸟瞰图”），才需要 VisionCreator 的全流程

最优系统可能不是”全 Agent”，而是路由式：简单需求走快速通道，复杂需求激活 UTPC。

Blog1

探索

VisionCreator

VisionCreator

基本信息

核心创新

UTPC 框架详解

训练创新

Progressive Specialization Training (PST)

Virtual Reinforcement Learning (VRL)

三大 Agent 模型的完整对比

关键判断

在 Wiki 中的关联

关系图谱

目录

反向链接