LLM2D

摘要

大型语言模型 (LLM) 在执行各种任务的同时，已展现出在众多行业领域中有效泛化的非凡能力。这些能力中的许多都源于语言模型 (LM) 预训练阶段使用的数据。然而，当这些模型被要求在专门的或资源匮乏的行业领域中执行任务时，它们表现出局限性。最近的方法使用 LLM 生成特定领域的合成数据，但它们通常缺乏真实性和复杂性。或者，在医疗保健和金融等领域存在领域数据的情况下，大多数 LM 都是专有的，因此需要一种可扩展的方法来整理真实世界行业特定的预训练数据。在这项工作中，我们提出了一种自动且可扩展的框架 - DoPAMine：从种子引导的数据挖掘中进行特定领域的预训练适应，从大型数据语料库中挖掘特定领域的训练数据，以适应 LM 的领域。该框架利用 LLM 的参数知识来生成针对特定领域的多样化和具有代表性的种子数据，然后使用这些数据从大型数据语料库（如 Common Crawl）中挖掘真实世界数据。我们通过使用 DoPAMine 挖掘的数据训练两个特定领域的 70 亿参数 LLM（医疗保健和金融）来评估我们框架在持续预训练 (CPT) 设置中的性能。我们的实验表明，与基线相比，DoPAMine 在 MMLU、MedQA、MedMCQA 和 PubMedQA 数据集上的医疗保健任务中，在零样本和 5 样本设置中分别将预训练 LLM 的性能平均提高了 4.9% 和 5.1%，在 FiQA-SA、FPB 和 Headlines 数据集上的金融任务中，在零样本和 5 样本设置中分别提高了 2.9% 和 6.7%。