摘要
arXiv:2501.12547v3 通知类型: 替换-交叉
摘要:人们通过丰富的物理和社会经历获得概念,并利用这些概念来理解世界。相比之下,仅通过语言数据的下一个token预测训练的大语言模型(LLMs)表现出令人惊叹的人类行为。这些模型是否在开发类似人类的概念,如果是,这些概念是如何被表示和组织的?为了解答这些问题,我们将经典的逆向词典任务重新定义,以模拟人类在上下文中推断概念的过程,并调查LLMs中人类概念表示的出现。我们的结果表明,LLMs可以从语言描述中灵活地推导出概念,特别是在其他概念的上下文线索相关的背景下。推导出的表示趋向于一种共同的、上下文无关的结构,能够有效预测跨关键心理学现象的人类行为,包括相似性的计算、类别和语义尺度。此外,这些表示与人类大脑的神经活动模式很好地对齐,即使是对视觉刺激而非语言刺激的反应,也为生物可行性提供了证据。这些发现确立了结构化的、类似人类的概念表示可以从语言预测自然出现,而无需现实世界的支撑。更广泛地说,我们的工作将LLMs定位为理解复杂人类认知的有前途的计算工具,并为更好地使人工智能和人类智能对齐铺平了道路。