LLM2D

摘要

arXiv:2502.08859v1 通知类型: 新摘要: 随着语言模型掌握现有推理基准，我们需要新的挑战来评估它们的认知边界。拼图比赛事件是丰富的问题库，其中包含了多种多样的复杂推理和知识能力测试问题，使之成为评估前沿语言模型的独特测试平台。我们介绍了EnigmaEval数据集，这是一个源自拼图比赛和活动的问题和解决方案集，旨在测试模型进行隐式知识合成和多步骤演绎推理的能力。与现有推理和知识基准不同，拼图解决挑战要求模型发现看似无关的信息之间的隐藏联系，以揭示解决方案路径。该基准包含1184个不同复杂度的拼图——每个通常需要熟练解谜团队数小时至数天才能完成——并且具有明确、可验证的解决方案，便于高效评估。最先进的语言模型在这类拼图上表现出极低的准确性，甚至低于其他困难基准如人类最终考试，揭示了模型在面对需要非结构化和横向推理的问题时的不足之处。