LLM2D

摘要

arXiv:2502.06813v1 类别: cross 摘要：尽管大型语言模型在许多任务上表现出色，但在需要复杂推理和规划的任务上往往表现不佳。现有的方法，如思维链提示和树搜索技术，尽管显示出前景，但受限于它们对预定义启发式方法和计算成本高昂的探索策略的依赖。我们提出了一种策略导向的树搜索（PGTS）框架，该框架将强化学习与结构化的树探索相结合，以高效地导航推理路径。我们的关键创新在于一个学习得到的策略，该策略动态决定扩展、分枝、回溯或终止探索，从而消除了手动启发式方法或穷举搜索的需要。在数学推理、逻辑推理和规划基准测试中的实验表明，PGTS在推理性能上取得了优越的表现，并且相比现有方法显著降低了计算成本。这些结果确立了PGTS作为使用大规模语言模型解决复杂推理任务的一种可扩展且有效的解决方案。