LLM2D
视觉语言模型用于可解释的人-物交互分析
VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis
作者: Donggoo Kang, Dasol Jeong, Hyunmin Lee, Sangwoo Park, Hasil Park, Sunkyu Kwon, Yeongjoon Kim, Joonki Paik
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18038v1

摘要

大型视觉语言模型 (VLM) 最近在连接两种基本模态方面取得了显著进展。通过足够大的数据集训练的 VLM,展现出对视觉和语言的全面理解,从而能够执行各种任务。为了准确提取这些知识,本文提出了一种新方法,该方法明确地将 VLM 用作人类-物体交互 (HOI) 检测任务的目标函数形式(**VLM-HOI**)。具体来说,我们提出了一种使用图像-文本匹配技术量化预测 HOI 三元组相似度的方法。我们用语言表示 HOI 三元组,以充分利用 VLM 的语言理解能力,这比 CLIP 模型更适合,因为 VLM 具有更好的定位和以物体为中心的特点。该匹配分数被用作对比优化目标。据我们所知,这是首次将 VLM 的语言能力用于 HOI 检测。实验结果证明了该方法的有效性,在基准测试中实现了最先进的 HOI 检测精度。我们相信,将 VLM 整合到 HOI 检测中,代表着朝着更高级、更可解释的人类-物体交互分析迈出的重要一步。