摘要
arXiv:2502.13170v1 宣布类型: 新
摘要:推理能力是大型语言模型(LLMs)最神秘和最具吸引力的方面之一。众多研究致力于探索并拓展这一推理能力的边界。然而,同时包含推理和回忆特性的任务往往被忽视。在这篇论文中,我们引入了一种新的任务——代码推理,以提供对LLMs推理能力的新视角。我们总结了三种基于逻辑推理类型形式的元基准,并将这些形式具体化为八个特定基准任务。我们在这些基准上的测试表明,LLMs仍然难以识别满意的推理路径。此外,我们提出了一种新的推理路径探索管道,灵感来源于人类复杂问题解决方法。这种反思性假设分解和修正(RHDA)管道包括以下迭代步骤:(1) 根据观察提出潜在假设并对它们进行分解;(2) 使用工具验证假设和反省结果;(3) 根据观察结果修订假设。我们的方法有效缓解了多步推理中因遗忘或幻觉问题导致的逻辑链断裂,从而实现了最高至3倍的性能提升。最后,我们通过将其应用于模拟真实场景中的复杂家庭任务(特别是在VirtualHome),扩展了该管道,增强了应对失败案例的能力。我们已在https://github.com/TnTWoW/code_reasoning发布了我们的代码和所有结果。