LLM2D

摘要

近年来，语言模型在涉及复杂多步推理的任务中取得了令人瞩目的成果，但传统上，进一步扩展这些能力需要昂贵地收集更多标注数据。在本研究中，我们探索了在没有新数据的条件下，仅仅利用自动反馈来验证算术推理预测结果（自训练）来提升模型推理能力的可能性。在六个不同的算术推理数据集上的系统实验中，我们发现模型在单轮（离线）和在线自训练中均能显著提升，分别在 +13.9% 和 +25.9% 的情况下取得正确结果，这突出了自训练反馈的实际意义。我们进一步发现，在单轮离线自训练中，传统的监督训练可以提供与偏好优化相当的收益，但在在线自训练中，偏好优化方法由于其在未见类型问题上的优越稳定性和鲁棒性，在很大程度上优于监督训练。