LLM2D

摘要

近年来，增强大型语言模型（LLM）的推理能力引起了广泛关注。以往研究表明，各种提示策略（称为“推理动作”）在帮助LLM进行推理方面非常有效，例如逐步思考、回答前反思、用程序解决以及它们的组合。然而，这些方法通常将静态的、预定义的推理动作统一应用于所有问题，而没有考虑每个问题的具体特征或任务解决型LLM的能力。在本文中，我们提出了DOTS，一种方法，它使LLM能够通过最优推理轨迹搜索动态地进行推理，针对每个问题的具体特征和任务解决型LLM的固有能力进行定制。我们的方法包括三个关键步骤：i) 定义可以组合成各种推理动作轨迹的原子推理动作模块；ii) 通过针对特定任务解决型LLM的迭代探索和评估，为每个训练问题搜索最佳动作轨迹；iii) 使用收集到的最佳轨迹来训练LLM，以便为未见过的问题的推理轨迹进行规划。特别是，我们提出了两种学习范式，即微调外部LLM作为规划器来指导任务解决型LLM，或者直接微调任务解决型LLM，使其具有推理动作规划的内部能力。我们在八个推理任务上的实验表明，我们的方法始终优于静态推理技术和vanilla指令调优方法。进一步的分析表明，我们的方法使LLM能够根据问题的复杂性调整它们的计算，将更深入的思考和推理分配给更难的问题。