LLM2D

摘要

arXiv:2504.19847v1 交叉发布类型: cross 摘要: 在这项工作中，我们提出了基于分割的人-物交互(Seg2HOI)方法，这是一种新颖的框架，将基于分割的视觉基础模型与人-物交互任务结合在一起，区别于传统的基于检测的人-物交互(HOI)方法。我们的方法通过不仅预测标准的三元组，而且还引入四元组来增强HOI检测，四元组通过包括人-物对的分割掩码对HOI三元组进行了扩展。具体来说，Seg2HOI继承了视觉基础模型的属性（例如，提示可调和交互机制），并将这些属性纳入到人-物交互任务中。尽管该框架仅针对HOI进行训练，而没有针对这些属性提供额外的训练机制，但其仍能高效地运行。在两个公开基准数据集上的广泛实验表明，Seg2HOI即使在零样本场景下也能达到最先进的方法的性能。最后，我们提出Seg2HOI可以从训练中未使用的新型文本和视觉提示生成人-物交互四元组和交互式人-物分割，这使得它可以通过利用这种灵活性在广泛的应用场景中具有多种用途。