LLM2D

摘要

arXiv:2504.08300v3 更新类型: 交叉替换摘要：多项选择题（MCQ）基准被广泛用于评估大型语言模型（LLMs），但它们的可靠性受到基准污染的削弱。在本研究中，我们将污染重新构想为学习过程的一个内在方面，并寻求在LLM评估中将真正的能力获得与表面上的记忆化区分开来。首先，通过在不同记忆条件下分析模型的性能，我们发现了一个令人意想不到的趋势：LLMs在记忆型MCQ上的表现比在非记忆型MCQ上要差，这表明并存着两种不同的学习现象，即机械记忆和真正的能力学习。为了将它们区分开来，我们提出了TrinEval，这是一种新的评估框架，将MCQ重新格式化为一种替代的三元格式，减少记忆化同时保持知识评估。实验验证了TrinEval在重新格式化方面的有效性，并且其评估揭示出，常见的LLMs可能在MMLU中机械记忆了20.5%的知识点（平均来说）。