LLM2D
微调大型语言模型用于问答的经验见解
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15825v1

摘要

大型语言模型 (LLM) 通过在海量数据集上进行预训练,编码了广泛的 world knowledge,这些知识可以被进一步微调用于问答 (QA) 任务。然而,针对 QA 任务对 LLM 进行微调的有效策略仍然很大程度上未被探索。为了填补这一空白,我们根据预训练的 LLM 所记忆的知识程度对监督式微调 (SFT) 数据进行分类,并进行了一系列的实证分析。我们的实验涉及三个不同模型家族的四个 LLM,重点关注三个关键因素:SFT 所需的数据量、不同 SFT 数据集对模型性能的影响以及数据需求在不同 LLM 之间的差异。结果表明,在 SFT 阶段,仅需 60 个数据点就可以激活预训练期间编码的知识,使 LLM 能够执行 QA 任务。此外,使用不同记忆水平的数据进行 SFT 对 LLM 的性能有显著影响,最佳数据集根据被微调的特定模型而有所不同。未来的研究将深入探讨这些现象背后的机制。