摘要
大型语言模型(LLM)的自训练方法通过在模型自行生成的推理基础上训练模型来提高其推理能力。以往的方法将产生正确答案的推理标记为适合训练。然而,单一指标存在误判推理质量的风险,导致模型学习有缺陷的推理模式。为了解决这个问题,我们提出了CREST(基于一致性的自训练推理评估)框架,该框架通过后续问题进一步评估每个推理,并利用此评估来指导其训练。具体来说,我们引入了两种方法:(1)过滤掉在后续问题中经常导致错误答案的推理;(2)基于原始问题和后续问题的推理评估结果的混合偏好进行偏好学习。在三个使用开放LLM的问答数据集上的实验表明,与之前的自训练方法相比,CREST不仅提高了推理的逻辑稳健性和正确性,还提高了推理能力。