RzenEmbed: Towards Comprehensive Multimodal Retrieval
核心结论
- 提出 RzenEmbed,支持文本、图像、视频、视觉文档(visual documents)四种模态的统一 Embedding 框架。
- 两阶段训练策略,第二阶段引入改进的 InfoNCE loss:hardness-weighted 机制 + 假负样本(false negative)消除。
关键事实
- 来源:360 AI Research(奇虎 360),2024。
- 基座模型:Qwen2-VL,利用其原生动态分辨率(Native Dynamic Resolution)和 M-RoPE 处理视频时序。
- 关键创新:(1) Hardness-weighted 机制:为困难样本分配更高权重;(2) 假负样本消除:识别并排除语义相似但被误标为负的样本;(3) 可学习温度参数:不同任务自动调整相似度分布锐度;(4) Model Souping 提高稳定性。
- 在 MMEB 和 MMEB-V2 上取得 SOTA,尤其在视频和视觉文档检索任务大幅领先。
与现有 Wiki 的关系
后续问题
- 假负样本消除策略的泛化性如何?不同领域的语义相似度阈值可能不同。