ObjEmbed: Towards Universal Multimodal Object Embeddings

核心结论

  • 提出 ObjEmbed,首个 MLLM 基的目标级 Embedding 模型,将图像中所有物体编码为独立 embedding。
  • 为每个目标生成双 embedding:语义 embedding(object token)+ 定位质量预测 embedding(IoU token),最终匹配分数 = 语义相似度 x 预测 IoU。

关键事实

  • 来源:中山大学、微信 CV 团队,2024。
  • 基座模型:Qwen3-VL-instruct,引入 5 个特殊 token(object、iou、global、local_text、global_text)。
  • 一次前向传播编码所有物体(100 个 proposal + 全局图),总序列 <2000 tokens,高效。
  • 支持三大任务:(1) 目标检测与指代理解;(2) 局部图像检索;(3) 全局图像检索。
  • 在 18 个 benchmark 上表现优异,COCO mAP 53.0%,局部检索比全局方法高约 20 点。

与现有 Wiki 的关系

后续问题

  • IoU 预测的准确性是否受 proposal generator 质量影响?
  • 如何扩展到视频帧级物体跟踪?