LLM2D

摘要

arXiv:2504.10893v1 通报类型: 新摘要: 大型语言模型（LLMs）已表现出令人印象深刻的 capabilities，并且正在通过扩展测试时的计算能力来增强其推理能力。然而，它们在开放式的、知识密集的、复杂的推理场景中的应用仍然有限。面向推理的方法由于隐含了完整世界知识的假设，在开放式的场景中难以实现泛化。同时，知识增强推理（KAR）方法未能解决两个核心挑战：1）误差传播，早期步骤中的错误会在链条中传递；2）验证瓶颈，在多分支决策过程中会引发探索-利用权衡。为了克服这些限制，我们引入了ARise，这是一种新颖的框架，该框架结合了蒙特卡洛树搜索范式中的中间推理状态的风险评估与动态检索增强生成（RAG）。该方法使跨多个维护假设分支有效地构建和优化推理计划成为可能。实验结果表明，ARise在最新的KAR方法上显著超越了23.10%，在最新的配备RAG的大规模推理模型上显著超越了25.37%。