UniWorld-V1

核心结论

UniWorld-V1 提出利用高分辨率语义编码器（SigLIP2）替代 VAE 作为统一生成框架的视觉特征提取器，处理图像理解、生成、操作和感知任务。
仅使用 270 万训练样本就达到了与 BAGEL（26.65 亿样本）相当甚至更优的图像编辑性能，数据效率极高。
通过实验推断 GPT-4o-Image 很可能也使用语义编码器而非 VAE。

架构：Qwen2.5-VL-7B（VLM 理解）+ SigLIP2-so400m/14（语义编码）+ FLUX DiT（生成）。VLM 提供高层语义和历史状态，SigLIP 提供低层控制信号。
两阶段训练：Stage 1 对齐 VLM 到 FLUX 文本分支（仅 MLP 可训练）；Stage 2 微调 FLUX 图像分支。
自适应编辑区域加权策略：对图像编辑中占比很小的编辑区域给予更高 loss 权重，使用对数加权函数 $w (x) = lo g_{2} (x) + 1$ 。
ZeRO-3 EMA：将 EMA 模型分片到多 GPU，减少内存开销。
Benchmark 表现：ImgEdit-Bench 总分 3.26（开源第一），WISE 0.55，GenEval 0.84（使用 LLM rewriter）。
图像感知能力：首个同时支持检测、分割、深度估计等感知任务的统一开源模型。