摘要
解决网格谜题需要大量的逻辑推理。因此,这是一个评估模型推理能力的好领域,这可以指导我们改进模型的推理能力。然而,大多数现有工作只评估谜题的最终预测答案,而没有深入分析大型语言模型 (LLM) 的推理链(例如它们在哪里失误)或提供任何更精细的指标来评估它们。由于大型语言模型可能依赖于简单的启发式方法或人工制品来预测最终答案,因此除了总体正确性度量之外,评估生成的推理链至关重要,以便准确地评估大型语言模型的推理能力。为此,我们首先开发了 GridPuzzle,这是一个包含 274 个不同复杂度的基于网格的谜题的评估数据集。其次,我们提出了一种新的错误分类法,该分类法源于对来自大型语言模型 (包括 GPT-4、Claude-3、Gemini、Mistral 和 Llama-2) 的推理链进行的手动分析。然后,我们开发了一个基于大型语言模型的框架,用于大规模主观评估(即识别错误)和一个客观指标 PuzzleEval,用于评估推理链的正确性。评估大型语言模型的推理链导致了一些有趣的发现。我们进一步表明,用于增强模型推理能力的现有提示方法并没有提高 GridPuzzle 的性能。这突出了理解细粒度错误的重要性,并为未来的研究提出了挑战,即通过开发解决这些错误的方法来增强大型语言模型的解谜能力。数据和源代码可在 https://github.com/Mihir3009/GridPuzzle 获取。