VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
基本信息
- 作者: Rui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz
- 机构: Salesforce Research, UC Santa Barbara, University of Waterloo, Tsinghua University
- 年份: 2025
- 论文: arXiv:2507.04590
- 项目主页: https://tiger-ai-lab.github.io/VLM2Vec/
- 前作: VLM2Vec(Jiang et al., 2024)
核心论点
现有的多模态嵌入模型(如 VLM2Vec、E5-V、GME)主要针对自然图像训练,在视频和视觉文档上的表现受限,无法满足真实场景(AI agent、多模态搜索推荐、RAG)的需求。VLM2Vec-V2 提出一个统一框架,将嵌入学习扩展到图像、视频和视觉文档三种视觉模态,在 78 个数据集上实现强性能。
关键技术方法
1. MMEB-V2 基准
在原有 MMEB(36 个图像任务)基础上扩展,新增 42 个任务,涵盖 5 类新 meta-task:
| 任务类型 | 数量 | 说明 |
|---|---|---|
| 视频检索 (V-RET) | 5 | 文本描述检索视频 |
| 片段检索 (M-RET) | 3 | 文本/图像查询定位视频片段 |
| 视频分类 (V-CLS) | 5 | 视频帧序列分类 |
| 视频问答 (V-QA) | 5 | 视频多选问答 |
| 视觉文档检索 (VisDoc) | 24 | 自然语言查询检索 PDF/幻灯片等 |
共覆盖文本、图像、视频、视觉文档四种模态的 9 类 meta-task、78 个任务。
2. 统一嵌入模型
- 骨干网络: Qwen2-VL 2B,支持动态分辨率、多模态旋转位置编码(M-RoPE)、2D/3D 统一编码
- 训练方式: 对比学习,使用 InfoNCE 损失 + batch 内负样本 + 硬负样本
- 输入格式: 统一的指令条件格式,query 端拼接
[VISUAL_TOKEN]+ 任务指令 + 原始查询,target 端可选加指令引导 - 参数高效训练: LoRA(rank=16, alpha=32),使用 GradCache 支持大 batch(1024)
3. 数据采样策略
- 动态 batch 混合: 按预定义采样权重表从不同数据源动态抽取,防止过拟合单一模态
- 交错子 batch 策略: 将大 batch(1024)拆分为小子 batch(64),每个子 batch 内同源采样以增加对比难度,子 batch 间交错以保持多样性
4. 训练数据
- 视频:LLaVA-Hound(300k 视频-描述对 + 240k 视频 QA)
- 视觉文档:ViDoRe 训练集(118k)+ VisRAG 合成/域内数据(362k)
- 图像:MMEB-train(覆盖 QA、分类、检索、grounding 等任务)
主要结果
- VLM2Vec-V2(2B 参数)在 78 个数据集上总体平均得分 58.0,超过 GME-7B(57.8)、LamRA-Qwen2.5-7B(47.4)、VLM2Vec-7B(52.3)等基线
- 图像任务(36 个):平均 Hit@1 = 64.9,与 VLM2Vec-7B(65.5)持平,大幅超过其他 2B 模型
- 视频任务(18 个):平均 Hit@1 = 34.6,虽仅用少量视频数据训练,仍具竞争力
- 视觉文档检索(24 个):平均 NDCG@5 = 65.4,显著超越所有 VLM2Vec 变体,但仍落后于专门优化的 ColPali(71.0)
消融实验关键发现
- 多模态训练收益大: 三模态联合训练(Image+Video+VisDoc)在文档任务和总体得分上最优,表明跨模态泛化有增益
- 子 batch 大小影响: VisDoc 和 Video 随子 batch 增大持续提升;Image 在 IB=64 时最优(倒 U 型曲线)
- LoRA rank: rank=16 整体最优,rank=32 无额外增益
- 训练步数: 5K 步时 VisDoc 和 Video 仍未饱和,进一步训练可能继续提升
局限性
- 视频仅用 8 个均匀采样帧表示,可能丢失细粒度时序信息
- 视觉文档检索仍明显落后于专门模型 ColPali(65.4 vs 71.0),说明通用模型在专业任务上仍有差距
- 视频任务性能(34.6)与图像任务(64.9)差距较大,视频嵌入学习仍是挑战
- 训练数据中视频和文档来源相对有限,数据规模可能制约泛化能力
- 未探索更大规模骨干(如 7B)是否能进一步缩小模态间差距
与相关工作的关系
- VLM2Vec(前作): 同一团队,VLM2Vec-V2 在其基础上扩展到视频和视觉文档模态,使用相同的指令条件对比学习框架
- GME: 同样基于 Qwen2-VL 微调的多模态嵌入模型,但主要面向图像和图像-文本任务;VLM2Vec-V2 在图像任务上与 GME-7B 持平,在视频和文档上超越
- ColPali: 视觉文档检索专用模型,使用 late interaction 机制;VLM2Vec-V2 在文档检索上仍落后,但在多模态统一性上更有优势
- LamRA: 基于大模型的通用检索助手,但在视觉文档检索上表现很差(23.9),缺乏文档模态训练
- MMEB-V2 vs MMEB: 前作基准仅覆盖自然图像,MMEB-V2 新增视频和文档评估,填补了嵌入模型在多样化视觉模态上的评估空白