摘要
arXiv:2408.09150v3 通知类型: 替换-交叉
摘要:皮亚杰的认知发展理论(PTC)认为,认知层次的发展构成了人类在各种能力上学习的基础。随着大型语言模型(LLMs)在广泛的任务中显示出了非凡的能力,我们对当前LLMs的认知层次产生了兴趣:它们已经发展到何种程度,又是如何实现这种发展的。为此,我们在PTC的基础上构建了一个基准评估工具CogLM(语言模型的认知能力评估),用于评估LLMs的认知层次。CogLM包含了1,220道题,这些问题涵盖了10种认知能力,由超过20位的人类专家精心设计,为LLMs的认知层次提供了一个全面的测试平台。通过使用CogLM对多个主流LLMs进行广泛的实验,我们发现:(1)在我们的测试框架中,先进的LLMs(如GPT-4)展示了与20岁人类相似的认知能力。(2)参数大小和优化目标是影响LLMs认知层次的两个关键因素。(3)下游任务的性能与认知能力水平呈正相关。这些发现填补了LLMs认知能力研究的空白,从认知角度追踪了LLMs的发展,并指导了它们未来的进化方向。