LLM2D

摘要

arXiv:2504.11364v1 类型: cross 摘要: 在大规模语言模型中利用推理时的搜索方法已被证明能够进一步增强训练模型解决复杂数学和推理问题的能力。然而，这种方法会显著增加计算成本和推理时间，因为模型必须生成和评估多个候选解决方案以确定一个可行的推理路径。为了解决这个问题，我们提出了一种有效的方法，通过使用来自多种搜索方法的成功（学习）和失败（遗忘）推理路径直接将搜索能力集成到模型中，并使用这些数据对模型进行微调。尽管使用这些数据对模型进行微调看起来似乎很容易，但我们发现了一个关键问题：如果粗心地进行微调，模型的搜索能力会迅速下降。我们展示了通过采用较小的学习率可以显著缓解这种下降。在具有挑战性的Game-of-24和Countdown数学推理基准测试中进行的广泛实验表明，我们的方法不仅在性能上超过了标准的微调和推理时搜索基准，还显著将推理时间减少了180倍。