LLM2D

摘要

大型视觉语言模型 (VLM) 最近在连接两种基本模态方面取得了显著进展。通过足够大的数据集训练的 VLM，展现出对视觉和语言的全面理解，从而能够执行各种任务。为了准确提取这些知识，本文提出了一种新方法，该方法明确地将 VLM 用作人类-物体交互 (HOI) 检测任务的目标函数形式（**VLM-HOI**）。具体来说，我们提出了一种使用图像-文本匹配技术量化预测 HOI 三元组相似度的方法。我们用语言表示 HOI 三元组，以充分利用 VLM 的语言理解能力，这比 CLIP 模型更适合，因为 VLM 具有更好的定位和以物体为中心的特点。该匹配分数被用作对比优化目标。据我们所知，这是首次将 VLM 的语言能力用于 HOI 检测。实验结果证明了该方法的有效性，在基准测试中实现了最先进的 HOI 检测精度。我们相信，将 VLM 整合到 HOI 检测中，代表着朝着更高级、更可解释的人类-物体交互分析迈出的重要一步。