SigLIP 2: Multilingual Vision-Language Encoders

核心结论

SigLIP 2 是 SigLIP 的升级版多语言视觉-语言编码器家族，通过统一训练配方整合了多项独立发展的技术（captioning 预训练、自监督损失、在线数据筛选），在全部模型规模上显著超越前代。
关键改进包括：更强的语义理解、更好的定位能力（localization）、更稠密的视觉特征。
支持多分辨率变体和原始宽高比保持，并在多语言公平性上做了 debiasing 努力。

作者来自 Google DeepMind，2025 年 2 月（arXiv:2502.14786）。
核心升级：
- 训练目标：原始 SigLIP 的 sigmoid 对比损失 + captioning 预训练 + 自蒸馏 + masked prediction。
- 在线数据筛选：动态过滤低质量图文对。
- 多分辨率：支持多种输入分辨率和原始宽高比。
- 多语言 debiasing：更丰富的数据混合和去偏技术。
模型规模：ViT-B (86M) / L (303M) / So400m (400M) / g (1B)，全部开源。
在零样本分类、图文检索、VLM 视觉特征提取、定位和 dense prediction 任务上全面优于 SigLIP。