摘要
近年来,语言模型在涉及复杂多步推理的任务中取得了令人瞩目的成果,但传统上,进一步扩展这些能力需要昂贵地收集更多标注数据。在本研究中,我们探索了在没有新数据的条件下,仅仅利用自动反馈来验证算术推理预测结果(自训练)来提升模型推理能力的可能性。
在六个不同的算术推理数据集上的系统实验中,我们发现模型在单轮(离线)和在线自训练中均能显著提升,分别在 +13.9% 和 +25.9% 的情况下取得正确结果,这突出了自训练反馈的实际意义。我们进一步发现,在单轮离线自训练中,传统的监督训练可以提供与偏好优化相当的收益,但在在线自训练中,偏好优化方法由于其在未见类型问题上的优越稳定性和鲁棒性,在很大程度上优于监督训练。