LLM2D
推理流程:使用少量示例训练大型语言模型进行不同问题求解
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples
作者: Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2406.05673v3

摘要

生成针对特定问题的多样化解决方案是人类创造力的标志。这种发散性推理对于机器来说也至关重要,它可以增强机器的鲁棒性,并使其能够在科学发现等许多应用中协助人类。然而,现有的使用大型语言模型 (LLM) 进行多步推理的方法大多只关注推理的准确性,而没有进一步探索更多样化的有效解决方案。例如,监督微调可以提高 LLM 推理质量,但需要大量监督数据来捕捉所有可能的解决方案。强化学习旨在找到有限的最高奖励解决方案,而忽略了解决方案的多样性。为了填补这一空白,我们提出了推理流 (FoR),这是一种高效的寻求多样性的 LLM 微调方法,旨在用最少的数据提高推理质量和多样性。FoR 将多步 LLM 推理公式化为在 DAG 结构的推理图上的马尔可夫流。这种公式使我们能够整合和调整基于原理的 GFlowNet 方法,用于微调 LLM 以采样具有与目标问题(未归一化)奖励成比例的概率的多样化推理路径。大量的实验表明,在有限的训练示例(例如,15 个示例)下,FoR 使得能够发现多样化、创造性的高质量解决方案,在五个具有挑战性的解谜任务(包括积木世界(具身推理)、24 点游戏(数学解谜)、魔方(空间推理)、一维 ARC(抽象推理)和 PrOntoQA(逻辑推理))中,显著优于各种现有的推理和训练方法。代码可在 https://github.com/Yu-Fangxu/FoR 获取。