摘要
arXiv:2504.08300v2 宣告类型: replace-cross
摘要:多项选择题(MCQ)基准在评估大型语言模型(LLMs)方面广泛应用,但它们的可靠性受到基准污染的影响。在这项研究中,我们将污染重新定义为学习的固有方面,并寻求在LLM评估中解开真正的能力获取与表面的记忆化之间的关系。首先,通过分析在不同记忆条件下模型的表现,我们揭示了一个出乎意料的趋势:LLMs在记忆化的MCQ上表现不如在非记忆化的MCQ上,这表明了两种不同的学习现象共存,即机械记忆和真正的能力学习。为了解开这些现象,我们提出了TrinEval,一种新颖的评估框架,将MCQ重新格式化为一种替代的三位一体格式,减少了记忆化的同时保留了知识评估。实验证明了TrinEval在重新格式化方面的有效性,并且其评估结果显示,常见的LLMs可能通过机械记忆平均保留了知识点的20.5%。