LLM2D

摘要

arXiv:2501.11790v2 评估类型: 替换-交叉摘要: 近期的研究对当前的数学基准的可靠性提出了担忧，指出了诸如设计简单以及潜在数据污染等问题。因此，创建一个可靠且能有效评估大型语言模型（LLMs）在数学推理方面真实能力的基准仍然是一项重要的挑战。为了解决这个问题，我们提出了RV-Bench框架，该框架通过随机变量在数学推理方面的基准评估LLMs。具体而言，随机变量问题（RV问题）的背景内容与现有基准中的原始问题相类似，但变量组合是随机化的，使得LLMs无法“看到”这些问题。模型必须完全理解原始问题的题型，才能正确回答带有各种变量值的RV问题。因此，LLMs在RV-Bench上的准确性和鲁棒性反映了其在数学推理方面的真正能力。我们在超过30个代表性LLMs上进行了超过1000个RV问题的广泛实验。我们的研究结果表明，LLMs在遇到和“未见过”的数据领域之间表现出技能上的不平衡。对于类似数学推理任务的技能泛化受限于准确性和鲁棒性，但仍然可以通过在测试时进行缩放来得到提升。