LLM2D
smarter 不要 harder:具有推理感知优化的自适应推理
Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization
作者: Zishun Yu, Tengyu Xu, Di Jin, Karthik Abinav Sankararaman, Yun He, Wenxuan Zhou, Zhouhao Zeng, Eryk Helenowski, Chen Zhu, Sinong Wang, Hao Ma, Han Fang
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.17974v2

摘要

arXiv:2501.17974v2 提示类型: 替换 摘要: 解决数学问题一直是大型语言模型的一项迷人能力,许多努力都在通过增加推理长度来提高推理能力,例如通过自我纠正和广泛的长链推理。虽然在解决问题方面前景广阔,但先进的长推理链模型却表现出一种不希望出现的单一模态行为,即简单的问题需要不必要的冗长的推理过程。在本文中,我们提出了一种方法,使模型能够意识到推理预算,将其形式化为在推理预算约束下的效用最大化问题,因此我们称该算法为推理预算约束的策略优化(IBPO)。简而言之,通过IBPO微调的模型学会了“理解”查询的难度,并将推理预算分配给更难的问题。使用不同的推理预算,我们的最优模型在MATH500上的绝对改进分别为4.14%和5.74%(相对于LLaMA3.1 8B Instruct的相对改进分别为8.08%和11.2%)。这些改进大约是相同预算下自我一致性改进的2倍。