LLM2D

摘要

arXiv:2501.17974v2 提示类型: 替换摘要: 解决数学问题一直是大型语言模型的一项迷人能力，许多努力都在通过增加推理长度来提高推理能力，例如通过自我纠正和广泛的长链推理。虽然在解决问题方面前景广阔，但先进的长推理链模型却表现出一种不希望出现的单一模态行为，即简单的问题需要不必要的冗长的推理过程。在本文中，我们提出了一种方法，使模型能够意识到推理预算，将其形式化为在推理预算约束下的效用最大化问题，因此我们称该算法为推理预算约束的策略优化（IBPO）。简而言之，通过IBPO微调的模型学会了“理解”查询的难度，并将推理预算分配给更难的问题。使用不同的推理预算，我们的最优模型在MATH500上的绝对改进分别为4.14%和5.74%（相对于LLaMA3.1 8B Instruct的相对改进分别为8.08%和11.2%）。这些改进大约是相同预算下自我一致性改进的2倍。