LLM2D

摘要

图像-文本表示学习是视觉-语言模型的基石，其中图像和文本描述对在共享嵌入空间中进行对比对齐。由于视觉和文本概念天生具有层次结构，最近的研究表明双曲空间可以作为一种高潜力流形来学习视觉-语言表示，并具有强大的下游性能。在这项工作中，我们首次展示了如何通过超越单个图像-文本对来充分利用双曲嵌入的固有层次结构。我们提出了用于双曲视觉-语言模型的组合蕴含学习。其思想是，图像不仅由句子描述，而且本身也是多个目标框的组合，每个目标框都有自己的文本描述。这种信息可以通过从句子中提取名词并使用公开可用的局部接地模型来免费获取。我们展示了如何通过对比和蕴含目标来层次化地组织图像、图像框及其文本描述。对使用数百万图像-文本对训练的双曲视觉-语言模型的实证评估表明，所提出的组合学习方法优于传统的欧几里得 CLIP 学习以及最近的双曲替代方案，具有更好的零样本和检索泛化能力，以及明显更强的层次结构性能。