LLM2D

摘要

生成针对特定问题的多样化解决方案是人类创造力的标志。这种发散性推理对于机器来说也至关重要，它可以增强机器的鲁棒性，并使其能够在科学发现等许多应用中协助人类。然而，现有的使用大型语言模型 (LLM) 进行多步推理的方法大多只关注推理的准确性，而没有进一步探索更多样化的有效解决方案。例如，监督微调可以提高 LLM 推理质量，但需要大量监督数据来捕捉所有可能的解决方案。强化学习旨在找到有限的最高奖励解决方案，而忽略了解决方案的多样性。为了填补这一空白，我们提出了推理流 (FoR)，这是一种高效的寻求多样性的 LLM 微调方法，旨在用最少的数据提高推理质量和多样性。FoR 将多步 LLM 推理公式化为在 DAG 结构的推理图上的马尔可夫流。这种公式使我们能够整合和调整基于原理的 GFlowNet 方法，用于微调 LLM 以采样具有与目标问题（未归一化）奖励成比例的概率的多样化推理路径。大量的实验表明，在有限的训练示例（例如，15 个示例）下，FoR 使得能够发现多样化、创造性的高质量解决方案，在五个具有挑战性的解谜任务（包括积木世界（具身推理）、24 点游戏（数学解谜）、魔方（空间推理）、一维 ARC（抽象推理）和 PrOntoQA（逻辑推理））中，显著优于各种现有的推理和训练方法。代码可在 https://github.com/Yu-Fangxu/FoR 获取。