LLM2D

摘要

arXiv:2504.08300v2 宣告类型: replace-cross 摘要：多项选择题（MCQ）基准在评估大型语言模型（LLMs）方面广泛应用，但它们的可靠性受到基准污染的影响。在这项研究中，我们将污染重新定义为学习的固有方面，并寻求在LLM评估中解开真正的能力获取与表面的记忆化之间的关系。首先，通过分析在不同记忆条件下模型的表现，我们揭示了一个出乎意料的趋势：LLMs在记忆化的MCQ上表现不如在非记忆化的MCQ上，这表明了两种不同的学习现象共存，即机械记忆和真正的能力学习。为了解开这些现象，我们提出了TrinEval，一种新颖的评估框架，将MCQ重新格式化为一种替代的三位一体格式，减少了记忆化的同时保留了知识评估。实验证明了TrinEval在重新格式化方面的有效性，并且其评估结果显示，常见的LLMs可能通过机械记忆平均保留了知识点的20.5%。