LLM2D
EnigmaEval:长期多模态推理挑战的基准测试
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges
作者: Clinton J. Wang, Dean Lee, Cristina Menghini, Johannes Mols, Jack Doughty, Adam Khoja, Jayson Lynch, Sean Hendryx, Summer Yue, Dan Hendrycks
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08859v1

摘要

arXiv:2502.08859v1 通知类型: 新 摘要: 随着语言模型掌握现有推理基准,我们需要新的挑战来评估它们的认知边界。拼图比赛事件是丰富的问题库,其中包含了多种多样的复杂推理和知识能力测试问题,使之成为评估前沿语言模型的独特测试平台。我们介绍了EnigmaEval数据集,这是一个源自拼图比赛和活动的问题和解决方案集,旨在测试模型进行隐式知识合成和多步骤演绎推理的能力。与现有推理和知识基准不同,拼图解决挑战要求模型发现看似无关的信息之间的隐藏联系,以揭示解决方案路径。该基准包含1184个不同复杂度的拼图——每个通常需要熟练解谜团队数小时至数天才能完成——并且具有明确、可验证的解决方案,便于高效评估。最先进的语言模型在这类拼图上表现出极低的准确性,甚至低于其他困难基准如人类最终考试,揭示了模型在面对需要非结构化和横向推理的问题时的不足之处。