LLM2D

摘要

尽管语言模型在各种任务中表现出令人印象深刻的能力，但它们在需要复杂规划和推理的任务中仍然存在困难。最近的研究提出在搜索过程中而不是最佳解决方案上训练语言模型，从而导致更好的泛化性能，即使搜索过程是嘈杂的甚至次优的。然而，这些研究忽略了最佳解决方案的价值，最佳解决方案可以作为一步一步的里程碑，指导更有效的搜索。在这项工作中，我们探索了如何利用最佳解决方案来增强语言模型的搜索和规划能力。为此，我们提出了引导式搜索流 (GSoS)，它以渐进的方式将最佳解决方案无缝地整合到自生成过程中，从而产生高质量的搜索轨迹。这些轨迹随后通过监督微调被提取到预训练模型中。我们的方法显著增强了语言模型在 Countdown 上的搜索和规划能力，Countdown 是一项简单但具有挑战性的数学推理任务。值得注意的是，将我们的方法与 RL 微调相结合可以进一步提高性能，而之前的监督微调方法并没有从 RL 中获益。此外，我们的方法比以子目标奖励的形式利用最佳解决方案更有效。