LLM2D

CogLM：大型语言模型的认知发展跟踪

CogLM: Tracking Cognitive Development of Large Language Models

作者: Xinglin Wang, Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Boyuan Pan, Heda Wang, Yao Hu, Kan Li

发布日期: 2/13/2025

arXiv ID: oai:arXiv.org:2408.09150v3

摘要

arXiv:2408.09150v3 通知类型: 替换-交叉摘要：皮亚杰的认知发展理论（PTC）认为，认知层次的发展构成了人类在各种能力上学习的基础。随着大型语言模型（LLMs）在广泛的任务中显示出了非凡的能力，我们对当前LLMs的认知层次产生了兴趣：它们已经发展到何种程度，又是如何实现这种发展的。为此，我们在PTC的基础上构建了一个基准评估工具CogLM（语言模型的认知能力评估），用于评估LLMs的认知层次。CogLM包含了1,220道题，这些问题涵盖了10种认知能力，由超过20位的人类专家精心设计，为LLMs的认知层次提供了一个全面的测试平台。通过使用CogLM对多个主流LLMs进行广泛的实验，我们发现：（1）在我们的测试框架中，先进的LLMs（如GPT-4）展示了与20岁人类相似的认知能力。（2）参数大小和优化目标是影响LLMs认知层次的两个关键因素。（3）下游任务的性能与认知能力水平呈正相关。这些发现填补了LLMs认知能力研究的空白，从认知角度追踪了LLMs的发展，并指导了它们未来的进化方向。

查看原文下载 PDF