LLM2D

摘要

arXiv:2501.03226v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在解决多步推理的复杂数学问题方面展现了令人印象深刻的能力，并且可以通过精心设计的上下文内学习（ICL）示例进一步增强。然而，这种潜力往往受限于ICL中的两个主要挑战：细粒度不匹配和无关信息。我们观察到，尽管LLMs在分解数学问题方面表现出色，但在细粒度步骤中的推理错误却常常成为挑战。此外，基于问题检索的ICL示例可能会省略关键步骤，甚至由于无关细节误导模型。为了解决这个问题，我们提出了一种名为BoostStep的方法，通过步骤对齐的ICL增强推理准确性，这是一种创新机制，能够仔细将检索到的参考步骤与相应的推理步骤对齐。此外，BoostStep还纳入了一种有效的“初次尝试”策略，以提供与当前推理状态高度相关的范例。BoostStep是一种灵活且强大的方法，能够无缝集成到chain-of-thought（CoT）和树搜索算法中，改进候选选择和决策制定。实验结果表明，BoostStep使得GPT-4o在数学基准测试中的CoT性能提高了4.6%，显著超过了传统的少样本学习的1.2%。此外，它结合树搜索可以实现额外的7.5%的提升。令人惊讶的是，它使用简单的示例就能增强最新大型语言模型解决复杂数学问题的能力。BoostStep使得DeepSeek-R1-671B在AIME上的表现提高了2.2%，仅利用来自MATH数据集的简单示例。