LLM2D

摘要

arXiv:2501.18922v1 类型: cross 摘要: 知识库问答（KBQA）旨在使用大规模结构化知识库（KB）回答自然语言问题。尽管大型语言模型（LLMs）取得了进展，但KBQA仍然面临知识库意识薄弱、效果与效率之间的不平衡以及高度依赖标注数据的挑战。为了解决这些挑战，我们提出了一种名为KBQA-o1的新颖代理型KBQA方法，结合了蒙特卡洛树搜索（MCTS）。它引入了一种基于ReAct的代理过程，用于逐步逻辑形式生成和知识库环境探索。此外，它使用由策略模型和奖励模型驱动的启发式搜索方法MCTS，来平衡代理探索的性能和搜索空间。通过启发式探索，KBQA-o1生成高质量的标注，以增量微调进一步改进。实验结果表明，KBQA-o1在有限标注数据的情况下优于之前的知识库有限资源KBQA方法，将Llama-3.1-8B模型的GrailQA F1性能提升至78.5%，而上一代最佳方法使用GPT-3.5-turbo时的性能为48.5%。