LLM2D
你懂我的语言,我学得更好:理解用 LLM 生成响应微调大型语言模型的优越性能
I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses
作者: Xuan Ren, Biao Wu, Lingqiao Liu
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2402.11192v3

摘要

本文探讨了一个有趣的现象:使用大型语言模型 (LLM) 生成的响应微调大型语言模型 (LLM) 往往比使用人类生成的响应效果更好,尤其是在推理任务中。我们对这一现象进行了深入研究,以了解其背后的原因。与普遍认为 LLM 生成的内容更详细有关的观点相反,我们的研究发现另一个重要因素:LLM 本质上对 LLM 生成的响应更“熟悉”。这种熟悉性在微调前的困惑度较低中得到体现。我们设计了一系列实验来了解“熟悉性”的影响,我们的结论表明这种“熟悉性”对学习性能有显著影响。使用 LLM 生成的响应进行训练不仅可以提高性能,还可以帮助在特定任务上微调后保持模型在其他推理任务中的能力。