Blog1

❯

❯

❯

多模态对比学习

多模态对比学习

2026年4月30日4分钟阅读

contrastive-learning
multimodal
CLIP
SigLIP

多模态对比学习

定义

多模态对比学习是一种通过对比损失将不同模态的数据（如图像-文本、音频-文本）映射到共享嵌入空间的训练方法。核心思想：配对的模态样本在嵌入空间中靠近，非配对样本远离。

核心机制

双编码器架构：每种模态使用独立的编码器（如 ViT 编码图像、BERT 编码文本），将输入映射到相同维度的嵌入向量。
对比损失：通过 InfoNCE 损失（CLIP 式）或 sigmoid 损失（SigLIP 式）最大化正样本对（配对的图文/音文）的相似度，最小化负样本对的相似度。
大规模训练数据：通常使用互联网爬取的大规模弱对齐多模态数据（如 CLIP 的 400M 图文对）。

代表工作

CLIP（2021）：开创者

OpenAI 提出，4 亿图文对训练，首次大规模对比语言-图像预训练。
验证了”自然语言作为监督信号”的可行性和强大零样本迁移能力。
成为 Stable Diffusion 等文本到图像生成模型的标准条件编码器。

SigLIP / SigLIP 2（2023-2025）：改进者

Google 提出，用 sigmoid 损失替代 CLIP 的 softmax 损失，训练更稳定、可扩展到更大 batch。
SigLIP 2（SigLIP 2）进一步整合 captioning 预训练、自蒸馏、masked prediction 等多项技术，提升语义理解、定位和 dense feature 能力。
SigLIP 2 的视觉编码器是许多现代 VLM（如 PaliGemma）的基础组件。

CLAP（2022）：跨模态拓展

CLAP 将 CLIP 范式迁移到音频领域，仅用 128K 音频-文本对即实现跨 8 个领域的零样本音频分类。
验证了对比语言-感知预训练的跨模态通用性：同样的框架，改编码器即可适配新模态。

关键洞察

对比 vs 生成：对比学习擅长语义对齐（理解），但本身不具备生成能力。生成模型（如扩散模型、原生多模态模型）需要对比学习提供的对齐编码器作为条件输入。
sigmoid vs softmax：SigLIP 的 sigmoid 损失将对比学习从”多分类”变为”独立二分类”，在大 batch 下更稳定且易于扩展到多正样本场景。
从对齐到理解：SigLIP 2 通过引入 captioning 和自监督损失，使对比学习从单纯的”对齐”向”理解”演进，弥合了与生成模型的差距。

局限

需要大规模配对数据，对小众语言/文化覆盖不足。
仅靠对比学习难以捕捉细粒度的空间关系（如定位、counting）。
依赖训练数据质量，互联网爬取数据可能包含偏差和噪音。

关联

视觉-语言对比学习：SigLIP 2
音频-语言对比学习：CLAP
在图像编辑中的应用：CLIP/SigLIP 提供的语义空间是扩散模型条件控制的基础（见扩散模型图像编辑与生成）。
与原生多模态模型的对比：原生多模态模型

关系图谱

多模态对比学习
定义
核心机制
代表工作
CLIP（2021）：开创者
SigLIP / SigLIP 2（2023-2025）：改进者
CLAP（2022）：跨模态拓展
关键洞察
局限
关联

反向链接

Vision Transformer 架构比较
CLIP 对比语言图像预训练
原生多模态模型
Vision Transformer (ViT)
CLAP: Learning Audio Concepts From Natural Language Supervision
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
Vision Transformer 演进
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community