LLM2D

摘要

arXiv:2502.14786v1 交叉公告类型：cross 摘要：我们介绍了SigLIP 2，这是一个基于原始SigLIP成功的新型多语言视觉-语言编码器的家族。在这一版中，我们将原始的图像-文本训练目标扩展为一个统一的配方，其中包括基于描述词的预训练、自我监督损失（自我蒸馏、遮罩预测）以及在线数据管理。通过这些变化，SigLIP 2模型在所有模型规模的核心能力上超过了其SigLIP对应的模型，包括零样本分类、图像-文本检索和为视觉语言模型（VLMs）提取视觉表示时的迁移性能。此外，新的训练配方在定位和密集预测任务上取得了显著的改进。我们还训练了支持多种分辨率并保持输入原始宽高比的变体。最后，我们使用包括去偏见技术在内的更具多样性的数据混合进行训练，这在多语言理解和公平性方面取得了更好的效果。为了使用户能够在推理成本与性能之间进行权衡，我们提供了四种规模的模型检查点：ViT-B（86M）、L（303M）、So400m（400M）和g（1B）。