摘要
arXiv:2505.10309v1 新闻类型: 新闻
摘要: 机器中的常识智能往往通过静态基准来评估,这些基准将模型的输出与人类预先规定的正确标签进行对比。这些标签的一个重要但隐含的假设是,它们能够准确捕捉任何人类的看法,从而将人类的常识视为一致的。然而,最近的实证研究表明,人类在认为什么是常识方面存在巨大差异;因此,一个基准设计师认为显而易见的东西可能对另一个设计师来说并不是如此。在这里,我们提出了一种新的方法,用于评估人工智能(AI)中的常识,特别是大型语言模型(LLMs),该方法通过测量模型判断与其所在群体的一致性来纳入人类观察到的异质性。首先,当我们把大多数LLMs视为独立的调查受访者时,它们的个体常识能力仍然落后于人类中位数。其次,当作为假设群体的模拟器使用时,LLMs在对同一套陈述达成一致的程度上仅与真实人类有适度的相关性。在两种情况下,较小、开放权重的模型出人意料地比大型、专有的前沿模型更有竞争力。我们的评估框架将常识智能与其文化基础联系起来,有助于适应具有不同,往往不兼容的社会知识存量的人类群体的AI模型的呼吁,这一趋势正在逐渐增长。