摘要
虽然从简单到困难的任务泛化对于评估语言模型(LLM)至关重要,但对于各种复杂程度的广泛问题,包含细粒度难度标注的数据集仍然空白。为了解决这一限制,我们推出了 Easy2Hard-Bench,这是一个格式一致的 6 个基准数据集集合,涵盖了数学和编程问题、象棋谜题和推理问题等各个领域。这些数据集中的每个问题都标注了数值难度评分。为了系统地评估问题的难度,我们收集了大量人类在现实世界中或 LLM 在知名排行榜上尝试每个问题的性能数据。利用丰富的性能数据,我们应用了成熟的难度排名系统,例如项目反应理论 (IRT) 和 Glicko-2 模型,以统一地为问题分配数值难度评分。此外,Easy2Hard-Bench 中的数据集与之前的集合相比,具有更高的挑战性问题比例。通过对六种最先进的 LLM 进行广泛的实验,我们对它们的性能和泛化能力在不同难度水平上的表现进行了全面分析,旨在激励未来 LLM 泛化方面的研究。数据集可在 https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench 获取。