Blog1

❯

❯

❯

多模态 Embedding 模型

多模态 Embedding 模型

2026年4月30日2分钟阅读

embedding
multimodal
retrieval
contrastive-learning

多模态 Embedding 模型

定义

多模态 Embedding 模型是将异构模态（文本、图像、视频、音频）映射到统一向量空间，使语义相似的跨模态样本在嵌入空间中距离接近的一类模型。核心应用包括跨模态检索、推荐系统和 RAG。

两大范式

1. 双塔架构（CLIP-style）

代表：CLIP、SigLIP、ALIGN、BLIP-2
特点：各模态独立编码器，仅在最后嵌入空间做对齐
优点：编码可预计算缓存，检索效率极高
局限：浅层融合，缺乏 token 级跨模态交互

2. MLLM 基统一架构

代表：VLM2Vec、MM-Embed、GME、Magic-MM-Embedding、ObjEmbed、RzenEmbed、SAIL-Embedding
特点：视觉 token 与文本 token 在统一 Transformer 中联合处理
优点：深层跨模态融合，强指令遵循，支持任意模态组合
挑战：视觉 token 序列长导致推理成本高

核心技术

对比学习：InfoNCE loss，正样本拉近 + 负样本推远
难负样本挖掘：动态阈值、自精炼、MLLM-as-Judge
视觉 Token 压缩：Magic-MM-Embedding 的插值下采样 75%
细粒度表示：ObjEmbed 的物体级 embedding + IoU 质量预测
多模态扩展：RzenEmbed 的视频/文档支持，SAIL-Embedding 的音频支持

评估标准

MMEB / MMEB-V2：多模态 Embedding 标准 benchmark
任务覆盖：image-text、text-image、visual document、video retrieval 等

相关来源

多模态 Embedding 与检索
多模态 Embedding 模型比较

关系图谱

多模态 Embedding 模型
定义
两大范式
1. 双塔架构（CLIP-style）
2. MLLM 基统一架构
核心技术
评估标准
相关来源

反向链接

多模态 Embedding 模型比较
CLIP 对比语言图像预训练
Magic-MM-Embedding
ObjEmbed: Towards Universal Multimodal Object Embeddings
Qwen3-VL-Embedding and Reranker
RzenEmbed: Towards Comprehensive Multimodal Retrieval
SAIL-Embedding: Omni-modal Embedding Foundation Model
多模态 Embedding 与检索
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community