LLM2D
面向逐步领域知识驱动的推理优化与反思提升
Towards Stepwise Domain Knowledge-Driven Reasoning Optimization and Reflection Improvement
作者: Chengyuan Liu, Shihang Wang, Lizhi Qing, Kaisong Song, Junjie Cao, Jun Lin, Ji Zhang, Ang Li, Kun Kuang, Fei Wu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09058v1

摘要

arXiv:2504.09058v1 公告类型: 新颖 摘要: 最近,逐步监督逻辑推理链(CoTs)在编码和数学等任务上取得了进展,借助了蒙特卡洛树搜索(MCTS)。然而,它对于需要特定领域专业知识和知识的任务的贡献仍未探索。受到这一兴趣的启发,我们在这类任务中识别出了MCTS的一些潜在挑战,并提出了逐步领域知识驱动的推理优化框架,利用MCTS算法为需要基本理解、推理和专门知识的问题开发逐步监督。此外,我们还提出了偏好优化向反思路径的方向,这是一种迭代学习更好视角下的自我反思的推理想法。我们进行了广泛的实验以评估这些方法的优势。实证结果证明了其在各种法律领域的有效性。我们还报告了一系列有价值的研究发现,希望能够激发对特定领域LLM和MCTS的研究热情。