VisionCreator: A Native Visual-Generation Agentic Model
Tencent Hunyuan + 港科大,2026。
核心结论
- 提出 VisionCreator,原生视觉生成 agent 模型,统一 UTPC(Understanding, Thinking, Planning, Creation)能力。
- 四大贡献:(1) VisGenData-4k(元认知驱动的创建轨迹数据);(2) Progressive Specialization Training (PST) + Virtual RL (VRL);(3) VisGenBench(1.2K 测试样本);(4) 在多个 benchmark 上 SOTA。
UTPC 框架
| 阶段 | 能力 | 说明 |
|---|
| Understanding | 视觉理解 | 分析用户需求、参考图像 |
| Thinking | 思考推理 | 设计创意方案、权衡选项 |
| Planning | 规划布局 | 确定视觉元素和空间关系 |
| Creation | 执行生成 | 端到端生成/编辑图像 |
训练方法
Progressive Specialization Training (PST)
- 分阶段训练:先学会理解 → 再学会思考 → 再学会规划 → 最终学会创建
- 避免一次性训练导致的灾难性遗忘
Virtual Reinforcement Learning (VRL)
- 在高保真模拟环境中评估生成质量
- 不需要人类反馈即可优化
在 Agent 生成模型中的定位
| 模型 | 范式 | 核心能力 |
|---|
| GoT | CoT 推理 + 生成 | 语义-空间推理 |
| Mind-Brush | think-research-create | 外部知识检索 |
| VisionCreator | UTPC | 端到端 agent 创建 |
与现有 Wiki 的关系