LLM2D

摘要

arXiv:2504.08300v1 交叉公告类型摘要：多项选择题（MCQ）基准广泛用于评估大型语言模型（LLMs），但这些基准的可靠性受到基准污染的削弱。在本研究中，我们将污染重新定义为学习的一个内在方面，并寻求在LLM评估中分离真实的能力获得与表面的机械记忆。通过在不同记忆条件下的模型性能分析，我们揭示了一个令人意外的趋势：LLMs在记忆性的MCQ上表现比在非记忆性的MCQ上更差，这表明了两种不同学习现象的并存，即机械记忆和真实的技能学习。为了分离它们，我们提出了TrinEval，一种新的评估框架，将MCQ重新制定为替代的三位一体格式，减少记忆同时保持知识评估。实验验证了TrinEval在重新制定方面的有效性，评估结果显示，在MMLU上，常见的LLMs可能机械记忆了20.5%的知识点（平均值）。