Qwen3-VL-Embedding and Reranker

基本信息

标题: Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
作者: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
机构: Tongyi Lab, Alibaba Group
年份: 2026
arXiv: 2601.04720
模型尺寸: 2B / 8B（Embedding 和 Reranker 各两种尺寸）
开源: HuggingFace + ModelScope + GitHub (QwenLM/Qwen3-VL-Embedding)

统一多模态检索空间: 首次在 Qwen3-VL 基础模型上构建统一的多模态 Embedding + Reranker 管线，支持文本、图像、文档图像、视频四种模态的跨模态检索
SOTA 多模态 Embedding: Qwen3-VL-Embedding-8B 在 MMEB-V2 上达到 77.8 分（2026 年 1 月排名第一），超越所有开源和闭源模型
多阶段训练范式: 从大规模对比预训练到排序模型蒸馏的渐进式训练，结合 Matryoshka 表示学习和量化感知训练
跨模态 Reranker: Cross-encoder 架构 + cross-attention 机制实现细粒度相关性估计，2B 模型即超越此前最优，8B 进一步提升 4.1 分
多语言继承: 继承 Qwen3-VL 的 30+ 语言能力，无需额外多语言训练

相关工作	关系
Magic-MM-Embedding	Magic-MM 压缩视觉 token 75% 提效，Qwen3-VL-Embedding 直接基于 VLM backbone
ObjEmbed	ObjEmbed 专注物体级嵌入，Qwen3-VL-Embedding 覆盖全模态统一检索
RzenEmbed	RzenEmbed 四模态 Embedding + hardness-weighted loss，Qwen3-VL-Embedding 增加 Reranker 管线
SAIL-Embedding	SAIL 是字节工业级部署，Qwen3-VL 是阿里学术级 SOTA
VLM2Vec-V2	VLM2Vec-V2 扩展到视频/文档但基于 2B，Qwen3-VL-Embedding 达到 8B SOTA
多模态 Embedding 模型	从 CLIP 双塔到 VLM-based 统一架构的最新进展
多模态 Embedding 与检索	补充了 Qwen 系列在 Embedding 方向的能力