ObjEmbed: Towards Universal Multimodal Object Embeddings

一句话总结：ObjEmbed 提出了一种通用多模态目标嵌入框架，基于 Qwen3-VL 骨干，通过 Object + IoU 双 token 嵌入设计（5 个特殊 token）实现目标级表示，配合 WeDetect-Uni 提议生成器和 sigmoid focal loss，在 18 个 benchmark 上统一处理开放词汇检测、指代表达理解和目标检索任务。

Intro

Motivation

现有目标级嵌入模型存在以下问题：(1) 大多数只能在封闭词汇设定下工作；(2) 开放词汇检测、指代表达理解、目标检索等任务通常需要分别训练专用模型；(3) 缺乏一个统一的目标嵌入空间，使得同一目标可以在不同任务间共享表示。

贡献

提出 Object + IoU 双 token 嵌入设计：object token 编码语义身份，IoU token 编码定位质量
5 个特殊 token：object、iou、global、local_text、global_text，统一处理不同粒度的多模态信息
WeDetect-Uni 提议生成器：为开放词汇场景生成候选区域
Sigmoid focal loss 替代 softmax，适应大规模类别空间
1.3M 训练样本，在 18 个 benchmark 上超越专用模型

Method 核心方法

1. 架构设计

骨干：Qwen3-VL，利用其强大的多模态理解和指令遵循能力
5 个特殊 token：
- [object]：编码目标语义身份（类别无关的对象性表示）
- [iou]：编码定位质量（预测框与真值的 IoU）
- [global]：图像级全局语义
- [local_text]：与目标区域相关的局部文本描述
- [global_text]：图像级全局文本描述
输入格式：图像 + 文本指令 + 区域标记，输出为 object token 和 iou token 的嵌入

2. Object + IoU 双 Token 设计

这是 ObjEmbed 最核心的创新：

Object Token：负责编码目标的语义身份，用于检索、分类和匹配。不同图像中的同一类别目标应有相似的 object embedding。
IoU Token：负责编码定位质量，用于评估检测框的精确度。在开放词汇检测中用于过滤低质量提议。
两个 token 的解耦设计允许模型分别优化语义判别力和定位精度。

3. WeDetect-Uni 提议生成器

为开放词汇检测生成候选区域
与 ObjEmbed 联合训练，端到端优化
支持任意类别名的开放词汇检测

4. 训练

损失：Sigmoid focal loss（代替 softmax CE），适合大规模类别空间和类别不平衡
数据：1.3M 样本，涵盖检测、指代、检索等多种任务
温度参数可学习

实验/评估/结果

在 18 个 benchmark 上评估，涵盖三大类任务。

核心设计验证

设计选择	对比	效果
Object + IoU 双 token	单一 token	语义判别+定位质量解耦优于统一
Sigmoid focal loss	Softmax CE	大类别空间下优势明显
Qwen3-VL 骨干	更小 VL 模型	更强的多模态理解提升效果

三大任务

任务	关键 benchmark	方法优势
开放词汇检测 (OVD)	COCO / LVIS	Object token 提供语义判别力，IoU token 提供定位质量
指代表达理解 (REC)	RefCOCO/+/g	统一 embedding 空间直接匹配文本指代和视觉目标
目标检索	跨图像检索	Object token 细粒度判别能力，同类别聚集

结论

ObjEmbed 证明了通过精心设计的 token 化方案（Object + IoU 双 token），可以将 MLLM 转化为通用目标嵌入模型。该方法在开放词汇检测、指代表达理解和目标检索上统一处理，且性能超越专用模型。

思考

优点

Token 设计的精妙：Object + IoU 双 token 的解耦设计简洁而有效。语义身份和定位质量是两个天然正交的维度，分开建模比混在一起更合理。
统一范式的价值：一个模型、一个嵌入空间覆盖检测、指代、检索三大类任务，这种统一性在实际系统中价值巨大。
与 MLLM 趋势的契合：选择 Qwen3-VL 作为骨干，继承了其强大的指令遵循和视觉理解能力，体现了”通用骨干+任务特定 token 设计”的思路。

缺点与待解决问题

5 个特殊 token 的设计可能过度工程化：global、local_text、global_text 等 token 的必要性和各自贡献的消融不够充分。
1.3M 训练样本相对较小：对于通用目标嵌入这个目标来说，数据规模和多样性可能不足。
实时性未充分讨论：基于 Qwen3-VL 的推理延迟在实际部署中可能是瓶颈，尤其对于需要实时处理的目标检测场景。

与已有 Wiki 的连接

关联概念：开放词汇目标检测、MLLM、Qwen3-VL
关联比较：与 OWL-ViT、Grounding DINO 等开放词汇检测方法的比较

Blog1

探索