摘要
当大型语言模型 (LLM) 的能力超越人类水平时,为这些模型提供全面而准确的监督变得越来越具有挑战性。弱到强学习,即利用能力较弱的模型来释放更强大模型的潜在能力,在这种情况下证明了其价值。然而,这种方法对于复杂推理任务的有效性尚未得到检验。此外,在弱到强设置下处理推理任务目前缺乏有效的方法来避免盲目模仿弱监督者,包括其错误。在本文中,我们介绍了一种渐进式学习框架,使强模型能够自主地细化其训练数据,而无需更高级模型或人工标注数据的输入。该框架首先在选择性的小型但高质量数据集上进行监督微调,然后对强模型本身识别出的对比样本进行偏好优化。在 GSM8K 和 MATH 数据集上的大量实验表明,我们的方法显着增强了 Llama2-70b 使用三种不同的弱模型的推理能力。该方法在一种前瞻性的实验设置中得到了进一步验证,其中 Llama3-8b-instruct 在极具挑战性的 OlympicArena 数据集上有效地监督了 Llama3-70b。这项工作为增强人工智能推理能力的更具可扩展性和复杂性的策略铺平了道路。所有相关的代码和资源都可以在 \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning} 中找到。