多模态对比学习

定义

多模态对比学习是一种通过对比损失将不同模态的数据(如图像-文本、音频-文本)映射到共享嵌入空间的训练方法。核心思想:配对的模态样本在嵌入空间中靠近,非配对样本远离。

核心机制

  1. 双编码器架构:每种模态使用独立的编码器(如 ViT 编码图像、BERT 编码文本),将输入映射到相同维度的嵌入向量。
  2. 对比损失:通过 InfoNCE 损失(CLIP 式)或 sigmoid 损失(SigLIP 式)最大化正样本对(配对的图文/音文)的相似度,最小化负样本对的相似度。
  3. 大规模训练数据:通常使用互联网爬取的大规模弱对齐多模态数据(如 CLIP 的 400M 图文对)。

代表工作

CLIP(2021):开创者

  • OpenAI 提出,4 亿图文对训练,首次大规模对比语言-图像预训练。
  • 验证了”自然语言作为监督信号”的可行性和强大零样本迁移能力。
  • 成为 Stable Diffusion 等文本到图像生成模型的标准条件编码器。

SigLIP / SigLIP 2(2023-2025):改进者

  • Google 提出,用 sigmoid 损失替代 CLIP 的 softmax 损失,训练更稳定、可扩展到更大 batch。
  • SigLIP 2(SigLIP 2)进一步整合 captioning 预训练、自蒸馏、masked prediction 等多项技术,提升语义理解、定位和 dense feature 能力。
  • SigLIP 2 的视觉编码器是许多现代 VLM(如 PaliGemma)的基础组件。

CLAP(2022):跨模态拓展

  • CLAP 将 CLIP 范式迁移到音频领域,仅用 128K 音频-文本对即实现跨 8 个领域的零样本音频分类。
  • 验证了对比语言-感知预训练的跨模态通用性:同样的框架,改编码器即可适配新模态。

关键洞察

  1. 对比 vs 生成:对比学习擅长语义对齐(理解),但本身不具备生成能力。生成模型(如扩散模型、原生多模态模型)需要对比学习提供的对齐编码器作为条件输入。
  2. sigmoid vs softmax:SigLIP 的 sigmoid 损失将对比学习从”多分类”变为”独立二分类”,在大 batch 下更稳定且易于扩展到多正样本场景。
  3. 从对齐到理解:SigLIP 2 通过引入 captioning 和自监督损失,使对比学习从单纯的”对齐”向”理解”演进,弥合了与生成模型的差距。

局限

  • 需要大规模配对数据,对小众语言/文化覆盖不足。
  • 仅靠对比学习难以捕捉细粒度的空间关系(如定位、counting)。
  • 依赖训练数据质量,互联网爬取数据可能包含偏差和噪音。

关联