一句话总结:SigLIP 2 在原始 SigLIP 的基础上系统性地整合了 decoder-based pretraining(LocCa)、自监督损失(SILC/TIPS 的 self-distillation + masked prediction)和在线数据筛选(ACID),并引入多语言训练和去偏过滤,在零样本分类、检索、VLM 特征提取、定位任务和密集预测上全面超越 SigLIP,同时支持原生宽高比的 NaFlex 变体。

Figure 1: SigLIP 2 的训练配方——将 SigLIP 的 sigmoid loss 与 LocCa 的 captioning-based pretraining、SILC/TIPS 的 self-distillation 和 masked prediction 相结合。
Intro
Motivation
CLIP/SigLIP 已成为视觉语义理解的主流方法,但现有开源模型普遍沿用 CLIP 原始方案,未整合近年来的多项独立改进(re-captioning、self-supervised losses、decoder-based pretraining、online data curation)。同时,它们在定位(localization)和密集特征提取(dense features)上明显弱于专用模型。SigLIP 2 的目标是将这些独立进展整合进一个统一配方。
贡献
- 将 SigLIP + LocCa + SILC/TIPS + ACID 整合为统一训练配方,四个尺寸(B/L/So400m/g)全面超越 SigLIP
- 训练多语言模型(109 种语言,90% 英语 + 10% 非英语),在 XM3600 多语言检索上大幅提升
- 引入 NaFlex 变体:单个 checkpoint 支持多种分辨率和原生宽高比
- 应用去偏过滤技术(CLIP the Bias),显著降低性别表征偏差(L/16 从 35.5% 降至 7.3%)
- 向后兼容 SigLIP 架构,现有用户可直接替换权重
Method 核心方法
1. 架构和训练基础
- 架构:标准 ViT + MAP head(attention pooling),文本塔使用 Gemma tokenizer(256K vocab),文本长度 64
- 数据:WebLI(10B 图像 + 12B alt-texts,109 种语言),90% 英语 + 10% 非英语
- 优化:Adam,lr=1e-3,weight decay 1e-4,batch size 32K,cosine schedule + 20K warmup,总共 40B examples,最多 2048 TPUv5e
2. 分阶段训练配方
第一阶段(前 80%):SigLIP(sigmoid loss)+ LocCa
- LocCa decoder 做三个辅助任务:image captioning、automatic referring expression prediction、grounded captioning
- Captioning 以 50% 概率使用 parallel prediction(无 causal mask)
第二阶段(后 20%):加入 SILC/TIPS 的自监督损失
- local-to-global consistency loss:学生(局部视图)→ 匹配教师(全局视图)的全局表征
- masked prediction loss:50% patch 被 mask,学生匹配教师在 mask 位置的特征
- 教师用 EMA 更新,权重 1.0 和 0.25,不同尺寸进一步重新加权
第三阶段(后 5%):分辨率适配
- 固定分辨率:resize positional embedding,恢复训练
- NaFlex:90% 处切换为 aspect-preserving resize,均匀采样序列长度 {128, 256, 576, 784, 1024}
蒸馏阶段:ACID(Active Data Curation via Implicit Distillation)
- 仅用于 B 尺寸模型
- 用 So400m teacher 在 curated data 上微调后的版本作为 teacher
- 每步从 64K super-batch 中选 32K 最优样本(filtering ratio 0.5)
3. NaFlex 变体
- 结合 FlexiViT(多序列长度)+ NaViT(原生宽高比)
- 输入图像 resize 使得宽高是 patch size 的倍数且序列长度不超过目标值
- 可学习位置编码被 bilinear resize 到目标非方形 patch grid
- 单个 checkpoint 在多数检索 benchmark 上与各自适配的标准变体相当或更优
实验/评估/结果
零样本分类和检索
ImageNet 分类(So400m, 224px):在 ImageNet/ObjectNet/ImageNet-v2/ImageNet ReaL 上全面超越 SigLIP、OpenCLIP、EVA-CLIP、MetaCLIP、DFN 等。
图像-文本检索(COCO/Flickr):SigLIP 2 大幅领先所有开源模型。多语言检索 XM3600 上接近专门的 mSigLIP 水平,同时英语任务远优于 mSigLIP。
密集预测
| 任务 | SigLIP | SigLIP 2 | 提升 |
|---|---|---|---|
| 语义分割 (PASCAL) | 72.0 | 77.1 | +5.1 |
| 语义分割 (ADE20k) | 37.6 | 41.8 | +4.2 |
| 深度估计 (NYUv2/Navi) | - | RMSE 显著降低 | - |
定位任务
| 任务 | SigLIP | SigLIP 2 | 提升 |
|---|---|---|---|
| RefCOCO (B/16@256) | 64.05 | 83.76 | +19.7 |
| OWL-ViT COCO AP | 42.2 | 42.8 | +0.6 |
| OWL-ViT LVIS AP | 33.0 | 34.4 | +1.4 |
文化多样性与公平性
| 指标 | SigLIP | SigLIP 2 |
|---|---|---|
| GeoDE 10-shot (L/16@256) | 36.2% | 44.4% |
| 性别表征偏差 | 35.5% | 7.3% |
结论
SigLIP 2 通过系统整合 decoder-based pretraining、自监督损失和在线数据筛选,在分类、检索、VLM 特征提取、定位和密集预测上全面超越 SigLIP。多语言训练和去偏过滤使其更具文化包容性。NaFlex 变体以单个 checkpoint 支持多分辨率/原生宽高比。
思考
优点
-
工程化的系统整合:将 LocCa、SILC/TIPS、ACID 等独立工作整合为统一配方,且证明这些技术可以叠加产生正向收益。这对工业级视觉编码器的设计有直接指导意义。
-
密集特征和定位的大幅提升:这是传统 CLIP 类模型的明显短板。SigLIP 2 在 RefCOCO 上 +20 点的提升尤其惊人,证明了 decoder-based pretraining 对空间理解的价值。
-
NaFlex 的实用设计:单 checkpoint 支持多分辨率 + 原生宽高比,在文档/OCR 场景有实际价值。与每个分辨率训练独立 checkpoint 相比节省了大量成本。
-
公平性考量:系统性评估了文化多样性和性别偏差,并展示了去偏技术的实际效果。这在视觉编码器论文中仍不多见。
缺点与待解决问题
-
不是端到端创新:本质上是对已有技术的系统整合,主要贡献在工程层面而非方法论层面。不过考虑到工业级模型发布的稀缺性,这仍然是高价值的工作。
-
Decoder 仅用于训练:LocCa decoder 只用于 representation learning,最终发布时不包含。这减少了推理成本,但也限制了用户直接利用其 captioning/localization 能力。
-
NaFlex 的局限性:不支持训练分辨率之间的插入——仅对训练时见过的序列长度(64, 144, 256, 576, 784, 1024 等)效果较好。
-
训练成本未详细披露:未报告总 GPU/TPU 小时,对社区评估技术路线可行性不够透明。