摘要
arXiv:2505.04147v1 社交推理类型:交叉
摘要:“读房间”是人类日常生活中的一项重要社会推理能力。人类可以根据细微的社会线索推断出他人的心理状态。以往的社会推理任务和数据集缺乏复杂性(例如,简单的场景、基本的互动、不完整的心里状态变量、单步推理等),远远无法应对现实生活中的社会互动中存在的挑战。在本文中,我们贡献了一个有价值的、高质量且全面的视频数据集,名为R^3-VQA,该数据集包含精确且细致的社会事件和心理状态(即信念、意图、愿望和情绪)注释,以及复杂的社交情景中的相应社会因果链。此外,我们还包括了人工注释和模型生成的问题-答案。我们的任务R^3-VQA包括三个方面:社会事件理解、心理状态估计和社会因果推理。作为基准,我们全面评估了当前最先进的大型视觉-语言模型(LVLMs)在社会推理能力及其一致性方面的表现。综合实验表明:(i)LVLMs仍无法在复杂的社交情景中达到人类级别的一致性社会推理;(ii)心智理论(ToM)提示可以有助于LVLMs更好地完成社会推理任务。我们将在附录中提供部分数据集和代码,并在论文被接受后发布完整的数据集和代码。