VisionCreator: A Native Visual-Generation Agentic Model

Tencent Hunyuan + 港科大,2026。

核心结论

  • 提出 VisionCreator,原生视觉生成 agent 模型,统一 UTPC(Understanding, Thinking, Planning, Creation)能力。
  • 四大贡献:(1) VisGenData-4k(元认知驱动的创建轨迹数据);(2) Progressive Specialization Training (PST) + Virtual RL (VRL);(3) VisGenBench(1.2K 测试样本);(4) 在多个 benchmark 上 SOTA。

UTPC 框架

阶段能力说明
Understanding视觉理解分析用户需求、参考图像
Thinking思考推理设计创意方案、权衡选项
Planning规划布局确定视觉元素和空间关系
Creation执行生成端到端生成/编辑图像

训练方法

Progressive Specialization Training (PST)

  • 分阶段训练:先学会理解 → 再学会思考 → 再学会规划 → 最终学会创建
  • 避免一次性训练导致的灾难性遗忘

Virtual Reinforcement Learning (VRL)

  • 在高保真模拟环境中评估生成质量
  • 不需要人类反馈即可优化

在 Agent 生成模型中的定位

模型范式核心能力
GoTCoT 推理 + 生成语义-空间推理
Mind-Brushthink-research-create外部知识检索
VisionCreatorUTPC端到端 agent 创建

与现有 Wiki 的关系