摘要
arXiv:2503.22152v1 宣告类型: cross
摘要: 我们引入了EgoToM,这是一个新的视频问答基准,将心智理论(ToM)评估扩展到了以自我为中心的领域。使用因果心智理论模型,我们为Ego4D数据集生成了多选视频问答实例,以评估预测摄像机佩戴者的目标、信念和下一步行动的能力。我们研究了人类和最先进的多模态大型语言模型(MLLMs)在这三个相互关联的推理问题上的表现。我们的评估表明,在从以自我为中心的视频中推断目标方面,MLLMs达到了与人类相当的准确性。然而,在推断摄像机佩戴者当前的信念状态以及与未见的视频未来最一致的未来行动时,MLLMs(包括我们测试的参数超过100亿的最大的模型)未能达到人类的表现水平。我们认为,我们的结果将影响重要一类以自我为中心的数字助手的设计,这些助手配备了合理的用户内心状态模型。