摘要
近年来,增强大型语言模型(LLM)的推理能力引起了广泛关注。以往研究表明,各种提示策略(称为“推理动作”)在帮助LLM进行推理方面非常有效,例如逐步思考、回答前反思、用程序解决以及它们的组合。然而,这些方法通常将静态的、预定义的推理动作统一应用于所有问题,而没有考虑每个问题的具体特征或任务解决型LLM的能力。在本文中,我们提出了DOTS,一种方法,它使LLM能够通过最优推理轨迹搜索动态地进行推理,针对每个问题的具体特征和任务解决型LLM的固有能力进行定制。我们的方法包括三个关键步骤:i) 定义可以组合成各种推理动作轨迹的原子推理动作模块;ii) 通过针对特定任务解决型LLM的迭代探索和评估,为每个训练问题搜索最佳动作轨迹;iii) 使用收集到的最佳轨迹来训练LLM,以便为未见过的问题的推理轨迹进行规划。特别是,我们提出了两种学习范式,即微调外部LLM作为规划器来指导任务解决型LLM,或者直接微调任务解决型LLM,使其具有推理动作规划的内部能力。我们在八个推理任务上的实验表明,我们的方法始终优于静态推理技术和vanilla指令调优方法。进一步的分析表明,我们的方法使LLM能够根据问题的复杂性调整它们的计算,将更深入的思考和推理分配给更难的问题。