摘要
arXiv:2502.08859v2 通知类型: 替换
摘要: 当语言模型掌握现有的推理基准时,我们需要新的挑战来评估它们的认知边界。解谜活动是丰富的问题资源库,这些问题是多样化、复杂且具有挑战性的,可以测试广泛的高度复杂的推理和知识能力,因此它们是评估前沿语言模型的独特测试平台。我们引入了EnigmaEval数据集,该数据集来源于解谜比赛和活动中的问题和解决方案,以测试模型进行隐含知识综合和多步演绎推理的能力。与现有的推理和知识基准不同,解谜挑战要求模型发现看似无关的信息之间的隐藏联系,以揭示解决方案的路径。基准包括1184个不同难度级别的谜题——每个谜题通常需要熟练的解谜者数小时到数天才能完成,并且具有明确无误、可验证的解法,使其能够进行高效的评估。最先进的语言模型在这些谜题上的准确率极低,甚至低于其他难以逾越的基准,如人类最后考试,揭示了当模型面对需要非结构化和发散性推理的问题时其存在的局限性。