摘要
arXiv:2411.06387v4 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)的自我训练方法通过在模型的自我生成的理由上进行训练来提高推理能力。以前的方法将生成正确答案的理由标签化以进行训练。然而,单一的衡量标准可能会错误地判断理由的质量,导致模型学会错误的推理模式。为了解决这一问题,我们提出了一种自我训练框架CREST(一致性驱动的自我生成理由评估),该框架进一步通过后续问题对每个理由进行评估,并利用这些评估来指导其训练。具体来说,我们引入了两种方法:(1)过滤掉在后续问题中经常导致错误答案的理由;(2)基于原始问题和后续问题理由评估结果的混合偏好进行偏好学习。使用开源LLM在三个问答数据集上的实验表明,CREST不仅提高了理由的逻辑稳健性和正确性,还相比以前的自我训练方法提高了推理能力。