LLM2D
基于随机变量对标记大语言模型的benchmarking
Benchmarking Large Language Models via Random Variables
作者: Zijin Hong, Hao Wu, Su Dong, Junnan Dong, Yilin Xiao, Yujing Zhang, Zhu Wang, Feiran Huang, Linyi Li, Hongxia Yang, Xiao Huang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.11790v2

摘要

arXiv:2501.11790v2 评估类型: 替换-交叉 摘要: 近期的研究对当前的数学基准的可靠性提出了担忧,指出了诸如设计简单以及潜在数据污染等问题。因此,创建一个可靠且能有效评估大型语言模型(LLMs)在数学推理方面真实能力的基准仍然是一项重要的挑战。为了解决这个问题,我们提出了RV-Bench框架,该框架通过随机变量在数学推理方面的基准评估LLMs。具体而言,随机变量问题(RV问题)的背景内容与现有基准中的原始问题相类似,但变量组合是随机化的,使得LLMs无法“看到”这些问题。模型必须完全理解原始问题的题型,才能正确回答带有各种变量值的RV问题。因此,LLMs在RV-Bench上的准确性和鲁棒性反映了其在数学推理方面的真正能力。我们在超过30个代表性LLMs上进行了超过1000个RV问题的广泛实验。我们的研究结果表明,LLMs在遇到和“未见过”的数据领域之间表现出技能上的不平衡。对于类似数学推理任务的技能泛化受限于准确性和鲁棒性,但仍然可以通过在测试时进行缩放来得到提升。