SigLIP 2: Multilingual Vision-Language Encoders

核心结论

  • SigLIP 2 是 SigLIP 的升级版多语言视觉-语言编码器家族,通过统一训练配方整合了多项独立发展的技术(captioning 预训练、自监督损失、在线数据筛选),在全部模型规模上显著超越前代。
  • 关键改进包括:更强的语义理解、更好的定位能力(localization)、更稠密的视觉特征。
  • 支持多分辨率变体和原始宽高比保持,并在多语言公平性上做了 debiasing 努力。

关键事实

  • 作者来自 Google DeepMind,2025 年 2 月(arXiv:2502.14786)。
  • 核心升级:
    • 训练目标:原始 SigLIP 的 sigmoid 对比损失 + captioning 预训练 + 自蒸馏 + masked prediction。
    • 在线数据筛选:动态过滤低质量图文对。
    • 多分辨率:支持多种输入分辨率和原始宽高比。
    • 多语言 debiasing:更丰富的数据混合和去偏技术。
  • 模型规模:ViT-B (86M) / L (303M) / So400m (400M) / g (1B),全部开源。
  • 在零样本分类、图文检索、VLM 视觉特征提取、定位和 dense prediction 任务上全面优于 SigLIP。

方法亮点

  • 统一训练配方(unified recipe):将之前分离的技术整合到一起产生协同效应。
  • 定位和 dense feature 的显著提升是此前 SigLIP 的明显短板。
  • 多分辨率支持让模型更灵活地适配不同下游任务。

与现有 Wiki 的关系

  • 多模态对比学习 的标志性工作之一,与 CLAP 共享对比学习核心思想。
  • 对比 CLIP 使用 softmax 损失,SigLIP 家族使用 sigmoid 损失,训练更稳定且可扩展到更大 batch。
  • SigLIP 2 的视觉编码器是许多现代 VLM 的基础组件。

后续问题

  • sigmoid vs softmax 对比损失的深度对比:是否在所有场景下 sigmoid 都更优?
  • captioning 预训练的加入是否会改变模型从”对齐”到”生成”的倾向?