LLM2D
斑马逻辑:大规模语言模型在逻辑推理方面的扩展极限
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning
作者: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01100v1

摘要

arXiv:2502.01100v1 逻辑推理类型: 新文章 摘要: 我们研究了大型语言模型(LLMs)的逻辑推理能力及其在复杂非单调推理中的可扩展性。为此,我们引入了ZebraLogic,这是一个全面的评估框架,用于评估LLM在基于约束满足问题(CSPs)的逻辑网格谜题上的推理性能。ZebraLogic能够生成具有可控制和量化的复杂性的谜题,从而促进对Llama、o1模型和DeepSeek-R1等模型的缩放限制的系统性研究。通过涵盖广泛的搜索空间复杂性和多样的逻辑约束,ZebraLogic提供了一个结构化的环境来评估在增加难度情况下的推理能力。 我们的结果揭示了随着问题复杂性的增加,准确率显著下降——我们称之为复杂性的诅咒。即使采用了更大的模型和更多的推理时间计算,这一限制仍然存在,表明当前LLM推理能力中存在固有的限制。此外,我们还探讨了增强逻辑推理的策略,包括Best-of-N采样、回溯机制和自我验证提示。我们的发现为LLM推理的可扩展性提供了关键见解,指出了根本性的限制,并列出了改进的潜在方向。