摘要
arXiv:2505.10453v1 说明类型: 交叉
摘要: 视听语言模型(VLMs)是结合了语言和视觉编码器的AI系统,能够处理多模态输入。它们能够执行复杂的语义任务,如自动标注,但至今仍是一个开放问题,即这些AI系统在理解它们处理的图像中描绘的场景的视空间特性方面表现如何。我们认为,描述虚拟物体(这些物体在图像中没有视觉表示)可以帮助测试这些AI系统的场景理解能力。例如,一张描绘一个人站在树下的图像可以与以下提示配对:想象一下,风筝卡在了树上。理解场景的VLMs应该更新其表示并合理地推理这三个物体之间的空间关系。我们描述了对最先进的VLMs的系统评估,并展示了它们处理虚拟物体的能力是不足的。