LLM2D

摘要

arXiv:2501.12547v3 通知类型: 替换-交叉摘要：人们通过丰富的物理和社会经历获得概念，并利用这些概念来理解世界。相比之下，仅通过语言数据的下一个token预测训练的大语言模型（LLMs）表现出令人惊叹的人类行为。这些模型是否在开发类似人类的概念，如果是，这些概念是如何被表示和组织的？为了解答这些问题，我们将经典的逆向词典任务重新定义，以模拟人类在上下文中推断概念的过程，并调查LLMs中人类概念表示的出现。我们的结果表明，LLMs可以从语言描述中灵活地推导出概念，特别是在其他概念的上下文线索相关的背景下。推导出的表示趋向于一种共同的、上下文无关的结构，能够有效预测跨关键心理学现象的人类行为，包括相似性的计算、类别和语义尺度。此外，这些表示与人类大脑的神经活动模式很好地对齐，即使是对视觉刺激而非语言刺激的反应，也为生物可行性提供了证据。这些发现确立了结构化的、类似人类的概念表示可以从语言预测自然出现，而无需现实世界的支撑。更广泛地说，我们的工作将LLMs定位为理解复杂人类认知的有前途的计算工具，并为更好地使人工智能和人类智能对齐铺平了道路。