摘要
arXiv:2502.14786v1 交叉公告类型:cross
摘要:我们介绍了SigLIP 2,这是一个基于原始SigLIP成功的新型多语言视觉-语言编码器的家族。在这一版中,我们将原始的图像-文本训练目标扩展为一个统一的配方,其中包括基于描述词的预训练、自我监督损失(自我蒸馏、遮罩预测)以及在线数据管理。通过这些变化,SigLIP 2模型在所有模型规模的核心能力上超过了其SigLIP对应的模型,包括零样本分类、图像-文本检索和为视觉语言模型(VLMs)提取视觉表示时的迁移性能。此外,新的训练配方在定位和密集预测任务上取得了显著的改进。我们还训练了支持多种分辨率并保持输入原始宽高比的变体。最后,我们使用包括去偏见技术在内的更具多样性的数据混合进行训练,这在多语言理解和公平性方面取得了更好的效果。为了使用户能够在推理成本与性能之间进行权衡,我们提供了四种规模的模型检查点:ViT-B(86M)、L(303M)、So400m(400M)和g(1B)。