LLM2D

摘要

arXiv:2504.16061v1 Announce Type: cross 摘要：视觉语言模型（VLMs）设计用于从图像中提取相关的空间信息。一些研究表明，VLMs 可能表现出类似人类的场景理解能力，而其他研究揭示了它们在处理关系信息方面的困难。为了实现广泛的适用性，VLMs 必须可靠地执行任务，在多种相关的任务中表现出相当的效能。我们旨在测试这些架构在进行简单的空间认知方面的可靠性，例如，在一个不杂乱的场景中识别一个物体是否在另一个物体的左侧。我们开发了一个基准数据集——TableTest，该数据集中的图像描绘了桌子上的3D场景，物体被安排在桌子上，利用该数据集来评估最先进的VLMs。结果显示，通过使用逻辑上等价但略有变化的提示，性能可能会受到影响。这些分析表明了VLMs在实际应用中如何推理空间关系上的局限性。它们还揭示了增强图像字幕语料库的新机会，以提高训练和测试的效率。