多模态 Embedding 模型比较

概览

本文比较 4 个近期 MLLM 基多模态 Embedding 模型:Magic-MM-Embedding、ObjEmbed、RzenEmbed、SAIL-Embedding。它们代表了该方向的效率优化、细粒度表示、模态扩展和工业落地的四个维度。

核心维度对比

维度Magic-MM-EmbeddingObjEmbedRzenEmbedSAIL-Embedding
基座模型InternVL3Qwen3-VLQwen2-VLSAIL 系列
支持模态文本 + 图像文本 + 图像(物体级)文本 + 图像 + 视频 + 文档视觉 + 文本 + 音频
核心创新视觉 token 压缩 75%物体级双 embedding(语义+IoU)Hardness-weighted loss + 假负消除全模态 + 推荐系统蒸馏
粒度图像级物体级图像/视频/文档级元素/视频级
评测基准MMEB 3518 benchmark(检测+检索)MMEB / MMEB-V2学术+抖音线上
训练规模16M 样本1.3M 样本两阶段>10B 样本
应用场景通用检索目标检测+局部检索跨模态检索推荐系统
Token 效率高(1/4 token)中(<2000/图)
产出形式开源开源开源技术报告

技术路线对比

效率优化

  • Magic-MM-Embedding 是唯一专门解决 token 效率的工作。通过参数无关的双线性插值压缩 75% 视觉 token,配合三阶段渐进训练恢复性能。
  • 其他三个模型均未专门考虑 token 压缩问题。

表示粒度

  • ObjEmbed 独树一帜,支持物体级(region-level)表示,生成语义 embedding + IoU quality embedding。
  • 其余三个模型均为图像/视频/文档级的全局表示。

模态覆盖

  • SAIL-Embedding 模态覆盖最广(视觉+文本+音频),面向抖音短视频场景。
  • RzenEmbed 覆盖文本+图像+视频+视觉文档,适合通用检索。
  • Magic-MM-EmbeddingObjEmbed 主要为图像+文本。

训练策略

  • SAIL-Embedding 数据规模最大(>100 亿样本),包含推荐系统特有的 ID-to-Item 和 Sequence-to-Item 蒸馏。
  • RzenEmbed 的 hardness-weighted loss 和 false negative 消除值得其他模型借鉴。
  • Magic-MM-Embedding 的 MLLM-as-Judge 数据筛选策略可迁移到其他模型。

互补性

四个模型并非直接竞争,而是从不同角度推进多模态 Embedding:

  • 需要高效推理:Magic-MM-Embedding
  • 需要物体级检索:ObjEmbed
  • 需要视频/文档支持:RzenEmbed
  • 需要全模态工业部署:SAIL-Embedding

相关页面