摘要
大型语言模型(LLM)的自训练方法通过利用模型自身生成的推理过程进行训练来提升其推理能力。以往的方法将生成正确答案的推理过程标记为合适的训练样本。然而,单一指标存在误判推理质量的风险,导致模型学习到有缺陷的推理模式。为了解决这个问题,我们提出了CREST(基于一致性的自训练推理评估框架),这是一个进一步通过后续问题评估每个推理过程并利用该评估结果指导训练的自训练框架。具体来说,我们引入了两种方法:(1)过滤掉在后续问题中经常导致错误答案的推理过程;(2)基于原始问题和后续问题的推理评估结果的混合偏好进行偏好学习。在三个问答数据集上使用开放式LLM进行的实验表明,与之前的自训练方法相比,CREST不仅提高了推理过程的逻辑稳健性和正确性,而且还提高了推理能力。