摘要
arXiv:2502.01100v1 逻辑推理类型: 新文章
摘要: 我们研究了大型语言模型(LLMs)的逻辑推理能力及其在复杂非单调推理中的可扩展性。为此,我们引入了ZebraLogic,这是一个全面的评估框架,用于评估LLM在基于约束满足问题(CSPs)的逻辑网格谜题上的推理性能。ZebraLogic能够生成具有可控制和量化的复杂性的谜题,从而促进对Llama、o1模型和DeepSeek-R1等模型的缩放限制的系统性研究。通过涵盖广泛的搜索空间复杂性和多样的逻辑约束,ZebraLogic提供了一个结构化的环境来评估在增加难度情况下的推理能力。
我们的结果揭示了随着问题复杂性的增加,准确率显著下降——我们称之为复杂性的诅咒。即使采用了更大的模型和更多的推理时间计算,这一限制仍然存在,表明当前LLM推理能力中存在固有的限制。此外,我们还探讨了增强逻辑推理的策略,包括Best-of-N采样、回溯机制和自我验证提示。我们的发现为LLM推理的可扩展性提供了关键见解,指出了根本性的限制,并列出了改进的潜在方向。