摘要
大型视觉语言模型 (VLM) 最近在连接两种基本模态方面取得了显著进展。通过足够大的数据集训练的 VLM,展现出对视觉和语言的全面理解,从而能够执行各种任务。为了准确提取这些知识,本文提出了一种新方法,该方法明确地将 VLM 用作人类-物体交互 (HOI) 检测任务的目标函数形式(**VLM-HOI**)。具体来说,我们提出了一种使用图像-文本匹配技术量化预测 HOI 三元组相似度的方法。我们用语言表示 HOI 三元组,以充分利用 VLM 的语言理解能力,这比 CLIP 模型更适合,因为 VLM 具有更好的定位和以物体为中心的特点。该匹配分数被用作对比优化目标。据我们所知,这是首次将 VLM 的语言能力用于 HOI 检测。实验结果证明了该方法的有效性,在基准测试中实现了最先进的 HOI 检测精度。我们相信,将 VLM 整合到 HOI 检测中,代表着朝着更高级、更可解释的人类-物体交互分析迈出的重要一步。