多模态 Embedding 模型比较
概览
本文比较 4 个近期 MLLM 基多模态 Embedding 模型:Magic-MM-Embedding、ObjEmbed、RzenEmbed、SAIL-Embedding。它们代表了该方向的效率优化、细粒度表示、模态扩展和工业落地的四个维度。
核心维度对比
| 维度 | Magic-MM-Embedding | ObjEmbed | RzenEmbed | SAIL-Embedding |
|---|---|---|---|---|
| 基座模型 | InternVL3 | Qwen3-VL | Qwen2-VL | SAIL 系列 |
| 支持模态 | 文本 + 图像 | 文本 + 图像(物体级) | 文本 + 图像 + 视频 + 文档 | 视觉 + 文本 + 音频 |
| 核心创新 | 视觉 token 压缩 75% | 物体级双 embedding(语义+IoU) | Hardness-weighted loss + 假负消除 | 全模态 + 推荐系统蒸馏 |
| 粒度 | 图像级 | 物体级 | 图像/视频/文档级 | 元素/视频级 |
| 评测基准 | MMEB 35 | 18 benchmark(检测+检索) | MMEB / MMEB-V2 | 学术+抖音线上 |
| 训练规模 | 16M 样本 | 1.3M 样本 | 两阶段 | >10B 样本 |
| 应用场景 | 通用检索 | 目标检测+局部检索 | 跨模态检索 | 推荐系统 |
| Token 效率 | 高(1/4 token) | 中(<2000/图) | 中 | 中 |
| 产出形式 | 开源 | 开源 | 开源 | 技术报告 |
技术路线对比
效率优化
- Magic-MM-Embedding 是唯一专门解决 token 效率的工作。通过参数无关的双线性插值压缩 75% 视觉 token,配合三阶段渐进训练恢复性能。
- 其他三个模型均未专门考虑 token 压缩问题。
表示粒度
- ObjEmbed 独树一帜,支持物体级(region-level)表示,生成语义 embedding + IoU quality embedding。
- 其余三个模型均为图像/视频/文档级的全局表示。
模态覆盖
- SAIL-Embedding 模态覆盖最广(视觉+文本+音频),面向抖音短视频场景。
- RzenEmbed 覆盖文本+图像+视频+视觉文档,适合通用检索。
- Magic-MM-Embedding 和 ObjEmbed 主要为图像+文本。
训练策略
- SAIL-Embedding 数据规模最大(>100 亿样本),包含推荐系统特有的 ID-to-Item 和 Sequence-to-Item 蒸馏。
- RzenEmbed 的 hardness-weighted loss 和 false negative 消除值得其他模型借鉴。
- Magic-MM-Embedding 的 MLLM-as-Judge 数据筛选策略可迁移到其他模型。
互补性
四个模型并非直接竞争,而是从不同角度推进多模态 Embedding:
- 需要高效推理:Magic-MM-Embedding
- 需要物体级检索:ObjEmbed
- 需要视频/文档支持:RzenEmbed
- 需要全模态工业部署:SAIL-Embedding