LLM2D

摘要

arXiv:2503.22093v1 交叉领域论文类别: cross 摘要：视觉语言模型（VLMs）在视觉问答（VQA）任务中展示了强大的推理能力；然而，它们在执行理论思维（ToM）任务方面的能力，如准确推断人类意图、信念和其他心理状态方面，尚未得到充分探索。在本文中，我们提出了一种开放性的问答框架，以全面评估VLMs在不同类型的ToM任务中的表现。我们整理和标注了一个由30张图片组成的基准数据集。然后，我们在该数据集上评估了四个不同大小的VLMs的表现。实验结果显示，GPT-4模型表现最佳，仅有较小的模型GPT-4o-mini能达到相当水平。此外，我们还观察到，VLMs在复杂场景如欺凌或作弊的情况下，常常难以准确推断意图。而且，我们的研究结果还表明，即使依赖错误的视觉线索，较小的模型有时也能正确推断出意图。