多模态 Embedding 模型
定义
多模态 Embedding 模型是将异构模态(文本、图像、视频、音频)映射到统一向量空间,使语义相似的跨模态样本在嵌入空间中距离接近的一类模型。核心应用包括跨模态检索、推荐系统和 RAG。
两大范式
1. 双塔架构(CLIP-style)
- 代表:CLIP、SigLIP、ALIGN、BLIP-2
- 特点:各模态独立编码器,仅在最后嵌入空间做对齐
- 优点:编码可预计算缓存,检索效率极高
- 局限:浅层融合,缺乏 token 级跨模态交互
2. MLLM 基统一架构
- 代表:VLM2Vec、MM-Embed、GME、Magic-MM-Embedding、ObjEmbed、RzenEmbed、SAIL-Embedding
- 特点:视觉 token 与文本 token 在统一 Transformer 中联合处理
- 优点:深层跨模态融合,强指令遵循,支持任意模态组合
- 挑战:视觉 token 序列长导致推理成本高
核心技术
- 对比学习:InfoNCE loss,正样本拉近 + 负样本推远
- 难负样本挖掘:动态阈值、自精炼、MLLM-as-Judge
- 视觉 Token 压缩:Magic-MM-Embedding 的插值下采样 75%
- 细粒度表示:ObjEmbed 的物体级 embedding + IoU 质量预测
- 多模态扩展:RzenEmbed 的视频/文档支持,SAIL-Embedding 的音频支持
评估标准
- MMEB / MMEB-V2:多模态 Embedding 标准 benchmark
- 任务覆盖:image-text、text-image、visual document、video retrieval 等