LLM2D

摘要

arXiv:2502.07445v1 交叉类型: cross 摘要: 大型语言模型（LLMs）通常在公开基准测试中表现出色，但这些高分可能掩盖了模型对数据集特定表面特征的过度依赖，而不是真正的语言理解能力。我们引入了叉尾benchmark过拟合检测器（C-BOD），这是一种元评估框架，通过参数变换系统地扭曲基准提示，并检测LLMs的过拟合。通过保留输入的语义内容和标签同时重新表述输入，C-BOD揭示了模型性能是否由记忆化的模式驱动。在使用26个领先的LLM对MMLU基准进行评估时，我们的方法在适度的扰动下揭示了平均2.15%的性能下降，其中20个模型在统计学上表现出显著差异。值得注意的是，基线准确率较高的模型在扰动下的性能差异更大，而较大的LLMs通常对重新表述更为敏感，这表明这两种情况可能过度依赖于固定的提示模式。相比之下，Llama家族及基线准确率较低的模型在扰动下的表现下降不显著，这表明其对外在线索的依赖减少。此外，C-BOD的基准数据和模型无关设计使其可以轻松集成到训练管道中，促进更稳健的语言理解。我们的发现挑战了该领域的研究者不仅要关注排行榜上的得分，还应优先考虑LLM评估中的弹性和泛化能力。