LLM2D

摘要

arXiv:2502.13428v1 公告类型: cross 摘要: 本研究探讨了通过利用蒙特卡洛树搜索(MCTS)来提高大型语言模型(LLMs)在知识库问答(KBQA)中的推理能力的方法。基于语义解析的KBQA方法尤其具有挑战性，因为这些方法需要从知识库中定位元素并生成逻辑形式，不仅需要大量的标注数据，还需要强大的推理能力。尽管利用LLMs作为代理的最近方法展示了相当大的潜力，但这些研究本质上受限于它们线性的决策过程。为了解决这一局限性，我们提出了一种基于MCTS的框架，通过树搜索方法增强LLMs的推理能力。我们设计了一种精心设计的逐步奖励机制，只需要直接提示开源指令LLMs，而无需额外的微调。实验结果表明，我们的方法在低资源场景中显著优于线性决策方法。此外，我们通过使用远程监督对现有的问题-SPARQL数据集进行标注中间推理过程，为KBQA社区贡献了新的数据资源。在扩展数据集上的实验结果表明，我们的方法在使用显著较少的训练数据的情况下达到了与完全监督模型相当的性能。