LLM2D

摘要

arXiv:2504.09058v1 公告类型: 新颖摘要: 最近，逐步监督逻辑推理链（CoTs）在编码和数学等任务上取得了进展，借助了蒙特卡洛树搜索（MCTS）。然而，它对于需要特定领域专业知识和知识的任务的贡献仍未探索。受到这一兴趣的启发，我们在这类任务中识别出了MCTS的一些潜在挑战，并提出了逐步领域知识驱动的推理优化框架，利用MCTS算法为需要基本理解、推理和专门知识的问题开发逐步监督。此外，我们还提出了偏好优化向反思路径的方向，这是一种迭代学习更好视角下的自我反思的推理想法。我们进行了广泛的实验以评估这些方法的优势。实证结果证明了其在各种法律领域的有效性。我们还报告了一系列有价值的研究发现，希望能够激发对特定领域LLM和MCTS的研究热情。