摘要
arXiv:2503.22093v1 交叉领域论文类别: cross
摘要:视觉语言模型(VLMs)在视觉问答(VQA)任务中展示了强大的推理能力;然而,它们在执行理论思维(ToM)任务方面的能力,如准确推断人类意图、信念和其他心理状态方面,尚未得到充分探索。在本文中,我们提出了一种开放性的问答框架,以全面评估VLMs在不同类型的ToM任务中的表现。我们整理和标注了一个由30张图片组成的基准数据集。然后,我们在该数据集上评估了四个不同大小的VLMs的表现。实验结果显示,GPT-4模型表现最佳,仅有较小的模型GPT-4o-mini能达到相当水平。此外,我们还观察到,VLMs在复杂场景如欺凌或作弊的情况下,常常难以准确推断意图。而且,我们的研究结果还表明,即使依赖错误的视觉线索,较小的模型有时也能正确推断出意图。