摘要
arXiv:2504.10077v1 类型: cross
摘要: 常识推理涉及人类普遍理解的隐性知识,通常通过与世界的互动获取。近年来,各种大语言模型(LLMs)的常识推理能力和理解能力通过文本任务进行了评估。在本文中,我们论及这种理解可以通过图形结构的代理维持,这种图形结构可以进一步有助于对各种现实世界活动的常识推理能力进行严格的评估。我们为37种日常人类活动创建了一个注释方案,以图形结构的形式捕捉这种隐性知识。我们发现,创建的资源可以用来构建大量的常识查询(~ 10^17 个),从而促进对大语言模型常识推理能力的严格评估。此外,最近大语言模型的卓越表现已经引发了关于这些模型是否真的能够在现实世界中进行推理的问题,以及一般而言这些模型内部如何进行推理的疑问。在本文中,我们通过提出促进类似方向研究的设计机制来弥补这一差距。我们的研究结果表明,在受到常识查询提示时,在大语言模型中起决定性作用的推理组件是局部化的。