LLM2D

摘要

arXiv:2502.08317v1 类型: cross 摘要：空间关系幻觉在大型视觉-语言模型（LVLMs）中一直是一个持续的挑战，导致模型在生成图像中对象位置和空间配置的不正确预测。为了解决这个问题，我们提出了一种约束感知提示框架，旨在减少空间关系幻觉。具体来说，我们引入了两种类型的约束：（1）双向约束，确保对象对间关系的一致性；（2）传递性约束，确保多个对象之间的关系依赖性。通过引入这些约束，LVLMs可以生成更具空间连贯性和一致性的输出。我们利用三种广泛使用的空间关系数据集评估了我们的方法，并展示了相对于现有方法的性能提升。此外，对各种双向关系分析选择和传递性参考的选择进行系统的分析也突显了我们的方法在通过引入约束减轻空间关系幻觉方面的更大潜力。