LLM2D
大型语言模型可能是机械记忆者
Large language models could be rote learners
作者: Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08300v2

摘要

arXiv:2504.08300v2 宣告类型: replace-cross 摘要:多项选择题(MCQ)基准在评估大型语言模型(LLMs)方面广泛应用,但它们的可靠性受到基准污染的影响。在这项研究中,我们将污染重新定义为学习的固有方面,并寻求在LLM评估中解开真正的能力获取与表面的记忆化之间的关系。首先,通过分析在不同记忆条件下模型的表现,我们揭示了一个出乎意料的趋势:LLMs在记忆化的MCQ上表现不如在非记忆化的MCQ上,这表明了两种不同的学习现象共存,即机械记忆和真正的能力学习。为了解开这些现象,我们提出了TrinEval,一种新颖的评估框架,将MCQ重新格式化为一种替代的三位一体格式,减少了记忆化的同时保留了知识评估。实验证明了TrinEval在重新格式化方面的有效性,并且其评估结果显示,常见的LLMs可能通过机械记忆平均保留了知识点的20.5%。