LLM2D
大型语言模型可能是机械学习者
Large language models could be rote learners
作者: Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.08300v3

摘要

arXiv:2504.08300v3 更新类型: 交叉替换 摘要:多项选择题(MCQ)基准被广泛用于评估大型语言模型(LLMs),但它们的可靠性受到基准污染的削弱。在本研究中,我们将污染重新构想为学习过程的一个内在方面,并寻求在LLM评估中将真正的能力获得与表面上的记忆化区分开来。首先,通过在不同记忆条件下分析模型的性能,我们发现了一个令人意想不到的趋势:LLMs在记忆型MCQ上的表现比在非记忆型MCQ上要差,这表明并存着两种不同的学习现象,即机械记忆和真正的能力学习。为了将它们区分开来,我们提出了TrinEval,这是一种新的评估框架,将MCQ重新格式化为一种替代的三元格式,减少记忆化同时保持知识评估。实验验证了TrinEval在重新格式化方面的有效性,并且其评估揭示出,常见的LLMs可能在MMLU中机械记忆了20.5%的知识点(平均来说)。