LLM2D
忽略你对LLMs评估的认识——LLMs就像一只变色龙
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
作者: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07445v1

摘要

arXiv:2502.07445v1 交叉类型: cross 摘要: 大型语言模型(LLMs)通常在公开基准测试中表现出色,但这些高分可能掩盖了模型对数据集特定表面特征的过度依赖,而不是真正的语言理解能力。我们引入了叉尾benchmark过拟合检测器(C-BOD),这是一种元评估框架,通过参数变换系统地扭曲基准提示,并检测LLMs的过拟合。通过保留输入的语义内容和标签同时重新表述输入,C-BOD揭示了模型性能是否由记忆化的模式驱动。在使用26个领先的LLM对MMLU基准进行评估时,我们的方法在适度的扰动下揭示了平均2.15%的性能下降,其中20个模型在统计学上表现出显著差异。值得注意的是,基线准确率较高的模型在扰动下的性能差异更大,而较大的LLMs通常对重新表述更为敏感,这表明这两种情况可能过度依赖于固定的提示模式。相比之下,Llama家族及基线准确率较低的模型在扰动下的表现下降不显著,这表明其对外在线索的依赖减少。此外,C-BOD的基准数据和模型无关设计使其可以轻松集成到训练管道中,促进更稳健的语言理解。我们的发现挑战了该领域的研究者不仅要关注排行榜上的得分,还应优先考虑LLM评估中的弹性和泛化能力。