LLM2D

摘要

arXiv:2502.01100v1 逻辑推理类型: 新文章摘要: 我们研究了大型语言模型（LLMs）的逻辑推理能力及其在复杂非单调推理中的可扩展性。为此，我们引入了ZebraLogic，这是一个全面的评估框架，用于评估LLM在基于约束满足问题（CSPs）的逻辑网格谜题上的推理性能。ZebraLogic能够生成具有可控制和量化的复杂性的谜题，从而促进对Llama、o1模型和DeepSeek-R1等模型的缩放限制的系统性研究。通过涵盖广泛的搜索空间复杂性和多样的逻辑约束，ZebraLogic提供了一个结构化的环境来评估在增加难度情况下的推理能力。我们的结果揭示了随着问题复杂性的增加，准确率显著下降——我们称之为复杂性的诅咒。即使采用了更大的模型和更多的推理时间计算，这一限制仍然存在，表明当前LLM推理能力中存在固有的限制。此外，我们还探讨了增强逻辑推理的策略，包括Best-of-N采样、回溯机制和自我验证提示。我们的发现为LLM推理的可扩展性提供了关键见解，指出了根本性的限制，并列出了改进的潜在方向。