LLM2D

摘要

大型语言模型 (LLM) 通过在海量数据集上进行预训练，编码了广泛的 world knowledge，这些知识可以被进一步微调用于问答 (QA) 任务。然而，针对 QA 任务对 LLM 进行微调的有效策略仍然很大程度上未被探索。为了填补这一空白，我们根据预训练的 LLM 所记忆的知识程度对监督式微调 (SFT) 数据进行分类，并进行了一系列的实证分析。我们的实验涉及三个不同模型家族的四个 LLM，重点关注三个关键因素：SFT 所需的数据量、不同 SFT 数据集对模型性能的影响以及数据需求在不同 LLM 之间的差异。结果表明，在 SFT 阶段，仅需 60 个数据点就可以激活预训练期间编码的知识，使 LLM 能够执行 QA 任务。此外，使用不同记忆水平的数据进行 SFT 对 LLM 的性能有显著影响，最佳数据集根据被微调的特定模型而有所不同。未来的研究将深入探讨这些现象背后的机制。