LLM2D
可靠的 LLM 推理的自动课程专家迭代
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning
作者: Zirui Zhao, Hanze Dong, Amrita Saha, Caiming Xiong, Doyen Sahoo
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07627v1

摘要

大型语言模型(LLM)在许多自然语言处理任务中已经取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法仍然面临着幻觉(即生成看似合理但实际上不准确的内容)和惰性(即过度拒绝或默认“我不知道”)的挑战。当前减少幻觉的努力主要集中在知识驱动任务中的事实错误上,往往忽视了与错误推理相关的幻觉。同时,一些方法使LLM过于保守,限制了其解决问题的能力。为了减轻推理任务中的幻觉和惰性,我们提出了自动课程专家迭代(Auto-CEI)来增强LLM推理,并使其响应与模型能力相一致——在能力范围内自信地回答,并在任务超出其能力时拒绝。在我们的方法中,专家迭代探索了LLM策略附近的推理轨迹,引导错误的路径回到正轨,以减少复合错误并提高鲁棒性;它还在经过充分的推理尝试后,促进了适当的“我不知道”响应。课程自动调整奖励,鼓励在承认无能为力之前进行扩展推理,从而推动LLM推理的极限,并使其行为与这些极限相一致。我们将Auto-CEI与各种SOTA基线进行了比较,涵盖逻辑推理、数学和规划任务,其中Auto-CEI通过有效地平衡自信和保守性,实现了卓越的一致性。