摘要
大型语言模型 (LLM) 在执行各种任务时,展现出在众多行业领域有效泛化的卓越能力。许多这些能力都源自语言模型 (LM) 预训练阶段使用的数据。然而,当这些模型需要在专业或资源匮乏的行业领域执行任务时,就会表现出局限性。最近的方法使用 LLM 生成特定领域的合成数据,但大多数情况下,这些数据缺乏真实性和复杂性。或者,在医疗保健和金融等领域数据可用的情况下,大多数 LLM 都是专有的,因此需要一种可扩展的方法来整理现实世界中特定行业的预训练数据。在这项工作中,我们提出一个自动化且可扩展的框架——DoPAMine:基于种子引导数据挖掘的特定领域预训练自适应,用于从大型数据语料库中挖掘特定领域的训练数据,以实现 LM 的领域自适应。该框架利用 LLM 的参数化知识来生成针对特定领域量身定制的多样化和具有代表性的种子数据,然后将其用于从大型数据语料库(如 Common Crawl)中挖掘现实世界的数据。我们通过使用 DoPAMine 挖掘的数据训练两个特定领域的 70 亿参数 LLM(医疗保健和金融领域),在持续预训练 (CPT) 设置中评估了我们框架的性能。我们的实验表明,与基线相比,DoPAMine 在 MMLU、MedQA、MedMCQA 和 PubMedQA 数据集上的医疗保健任务中,在零样本和五样本设置下分别将预训练 LLM 的性能平均提高了 4.9% 和 5.1%;在 FiQA-SA、FPB 和 Headlines 数据集上的金融任务中,在零样本和五样本设置下分别提高了 2.9% 和 6.7%。