摘要
本文探讨了一个有趣的现象:使用大型语言模型 (LLM) 生成的响应微调大型语言模型 (LLM) 通常比使用人类生成的响应获得更好的结果,尤其是在推理任务中。我们进行了深入研究以了解为什么会发生这种情况。与人们普遍认为的这些现象是由于 LLM 生成的内容更详细的性质造成的这一观点相反,我们的研究确定了另一个促成因素:LLM 本质上对 LLM 生成的响应更加“熟悉”。这种熟悉性在微调前的困惑度降低中有所体现。我们设计了一系列实验来了解“熟悉度”的影响,我们的结论表明这种“熟悉度”对学习性能有重大影响。使用 LLM 生成的响应进行训练不仅可以提高性能,还可以帮助在特定任务上微调后保持模型在其他推理任务中的能力。