Blog1

❯

❯

❯

多模态 Embedding 与检索

多模态 Embedding 与检索

2026年4月30日3分钟阅读

embedding
multimodal
retrieval

多模态 Embedding 与检索

概述

多模态 Embedding 指将文本、图像、视频、音频等异构数据映射到统一语义空间的表示学习技术。近年来从 CLIP 双塔架构向 MLLM 基的统一 Embedding 范式演进，支持指令引导的跨模态检索。本主题涵盖 4 个代表性工作，覆盖效率优化、物体级表示、多模态扩展和工业级落地。

核心来源

Magic-MM-Embedding：视觉 token 压缩实现高效 MLLM Embedding，75% token 削减 + SOTA 性能。
ObjEmbed：物体级 Embedding，语义+IoU 双 embedding，支持检测/指代/局部检索。
RzenEmbed：文本+图像+视频+文档四模态统一 Embedding，hardness-weighted loss + false negative 消除。
SAIL-Embedding：全模态（视觉+文本+音频）工业级 Embedding，字节跳动抖音线上部署。

关键概念

多模态 Embedding 模型：CLIP 双塔 vs MLLM 统一架构的范式对比。
对比学习核心技术：InfoNCE loss、难负样本挖掘（hard negative mining）、假负样本消除。
MMEB benchmark：多模态 Embedding 的标准评测基准。
Token 效率：MLLM Embedding 中视觉 token 压缩的必要性与方法。

技术趋势

从 CLIP 双塔到 MLLM 统一编码：更强的跨模态交互和指令遵循能力。
从图像级到物体级：ObjEmbed 代表的细粒度表示。
从双模态到全模态：SAIL-Embedding 的视觉+文本+音频。
从学术 benchmark 到工业落地：SAIL-Embedding 的线上推荐系统部署。

开放问题

如何平衡 MLLM Embedding 的表达力与推理成本？
全模态 Embedding 的模态缺失（modality-missing）问题？
动态更新的 Embedding 如何保持一致性？

关系图谱

多模态 Embedding 与检索
概述
核心来源
关键概念
技术趋势
开放问题

反向链接

多模态 Embedding 模型比较
CLIP 对比语言图像预训练
多模态 Embedding 模型
Magic-MM-Embedding
ObjEmbed: Towards Universal Multimodal Object Embeddings
Qwen3-VL-Embedding and Reranker
RzenEmbed: Towards Comprehensive Multimodal Retrieval
SAIL-Embedding: Omni-modal Embedding Foundation Model
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community