摘要
arXiv:2412.18547v4 通告类型: replace-cross
摘要:推理是大型语言模型(LLMs)在广泛任务中表现出色的关键。虽然像Chain-of-Thought(CoT)推理等方法通过将问题分解为中间步骤来提升LLM的表现,但也导致了显著的标记使用量增加,从而增加了成本。我们发现当前LLMs的推理过程过于冗长,可以通过在提示中包含合理的标记预算来压缩,但标记预算的选择在实际压缩效果中起着关键作用。随后,我们提出了一种具有标记预算意识的LLM推理框架,该框架基于推理复杂性动态估计不同问题的标记预算,并使用估计的标记预算来指导推理过程。实验结果表明,我们的方法在CoT推理中仅轻微降低了性能的同时有效地降低了标记成本,提供了一种在效率和准确性之间平衡的实际解决方案。代码:https://github.com/GeniusHTX/TALE。