LLM2D

摘要

本文探讨了一个有趣的现象：使用大型语言模型 (LLM) 生成的响应微调大型语言模型 (LLM) 往往比使用人类生成的响应效果更好，尤其是在推理任务中。我们对这一现象进行了深入研究，以了解其背后的原因。与普遍认为 LLM 生成的内容更详细有关的观点相反，我们的研究发现另一个重要因素：LLM 本质上对 LLM 生成的响应更“熟悉”。这种熟悉性在微调前的困惑度较低中得到体现。我们设计了一系列实验来了解“熟悉性”的影响，我们的结论表明这种“熟悉性”对学习性能有显著影响。使用 LLM 生成的响应进行训练不仅可以提高性能，还可以帮助在特定任务上微调后保持模型在其他推理任务中的能力。