摘要
arXiv:2504.07081v1 交叉公告类型:cross
摘要:虽然测试时推理使语言模型能够应对复杂的任务,但在自然语言中进行搜索或规划可能会变得缓慢、昂贵且容易出错。但即使当语言模型在模拟解决问题所需的精确推理步骤方面遇到困难时,它们通常在描述问题的抽象结构方面表现出色——包括如何验证解决方案以及如何寻找它们。本文介绍了一种名为“自我引导”的方法——规划器模型生成一个针对特定任务的推理程序,该程序由一群跟随者模型执行。我们的方法为语言模型提供了编写递归搜索程序的能力,这些程序可以引导语言模型的推理,从而实现可验证且高效的推理。当使用小型跟随者(例如 Llama-3.2-1B)实例化时,DisCIPL 在具有挑战性的受限生成任务上可以与(甚至有时超过)GPT-4o 和 o1 等更大规模的模型相匹敌。通过将规划与执行分离,我们的工作开辟了一种高性能并行蒙特卡洛推理策略的设计空间,这些策略优于标准的最佳N抽样,不需要微调,并且可以通过现有的语言模型自动实现。