LLM2D
大型语言模型可能是机械学习者
Large language models could be rote learners
作者: Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08300v1

摘要

arXiv:2504.08300v1 交叉公告类型 摘要:多项选择题(MCQ)基准广泛用于评估大型语言模型(LLMs),但这些基准的可靠性受到基准污染的削弱。在本研究中,我们将污染重新定义为学习的一个内在方面,并寻求在LLM评估中分离真实的能力获得与表面的机械记忆。通过在不同记忆条件下的模型性能分析,我们揭示了一个令人意外的趋势:LLMs在记忆性的MCQ上表现比在非记忆性的MCQ上更差,这表明了两种不同学习现象的并存,即机械记忆和真实的技能学习。为了分离它们,我们提出了TrinEval,一种新的评估框架,将MCQ重新制定为替代的三位一体格式,减少记忆同时保持知识评估。实验验证了TrinEval在重新制定方面的有效性,评估结果显示,在MMLU上,常见的LLMs可能机械记忆了20.5%的知识点(平均值)。