Magic-MM-Embedding: Visual-Token-Efficient Universal Multimodal Embedding

核心结论

  • 提出 Magic-MM-Embedding,解决 MLLM Embedding 模型因大量视觉 token 导致推理成本高的问题。
  • 通过参数无关的视觉 token 压缩(双线性插值下采样 75%)大幅降低延迟和显存,同时保持 SOTA 性能。

关键事实

  • 来源:Honor Device Co., Ltd,2024。
  • 核心挑战:标准 MLLM(如 LLaVA-1.5 的 576 个 visual tokens)在检索任务中存在严重冗余,计算成本与 token 数成二次关系。
  • 三阶段渐进训练:(1) 多模态基础能力恢复(通用指令微调);(2) 多模态对比预训练(16M 样本 + 自精炼难负样本挖掘);(3) 任务感知微调(MLLM-as-Judge 构造高质量难负样本)。
  • 基座模型:InternVL3-VTC。
  • 在 MMEB 35 任务上以 1/4 视觉 token 取得 SOTA。

与现有 Wiki 的关系

后续问题

  • 75% 压缩率是否对所有类型的图像(如密集文字文档)都适用?