LLM2D
SigLIP 2:具有改进的语义理解、定位和密集特征的多语言视觉-语言编码器
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
作者: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier H\'enaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14786v1

摘要

arXiv:2502.14786v1 交叉公告类型:cross 摘要:我们介绍了SigLIP 2,这是一个基于原始SigLIP成功的新型多语言视觉-语言编码器的家族。在这一版中,我们将原始的图像-文本训练目标扩展为一个统一的配方,其中包括基于描述词的预训练、自我监督损失(自我蒸馏、遮罩预测)以及在线数据管理。通过这些变化,SigLIP 2模型在所有模型规模的核心能力上超过了其SigLIP对应的模型,包括零样本分类、图像-文本检索和为视觉语言模型(VLMs)提取视觉表示时的迁移性能。此外,新的训练配方在定位和密集预测任务上取得了显著的改进。我们还训练了支持多种分辨率并保持输入原始宽高比的变体。最后,我们使用包括去偏见技术在内的更具多样性的数据混合进行训练,这在多语言理解和公平性方面取得了更好的效果。为了使用户能够在推理成本与性能之间进行权衡,我们提供了四种规模的模型检查点:ViT-B(86M)、L(303M)、So400m(400M)和g(1B)。