摘要
arXiv:2504.16061v1 Announce Type: cross
摘要:视觉语言模型(VLMs)设计用于从图像中提取相关的空间信息。一些研究表明,VLMs 可能表现出类似人类的场景理解能力,而其他研究揭示了它们在处理关系信息方面的困难。为了实现广泛的适用性,VLMs 必须可靠地执行任务,在多种相关的任务中表现出相当的效能。我们旨在测试这些架构在进行简单的空间认知方面的可靠性,例如,在一个不杂乱的场景中识别一个物体是否在另一个物体的左侧。我们开发了一个基准数据集——TableTest,该数据集中的图像描绘了桌子上的3D场景,物体被安排在桌子上,利用该数据集来评估最先进的VLMs。结果显示,通过使用逻辑上等价但略有变化的提示,性能可能会受到影响。这些分析表明了VLMs在实际应用中如何推理空间关系上的局限性。它们还揭示了增强图像字幕语料库的新机会,以提高训练和测试的效率。