LLM2D
DoPAMine:基于种子引导数据挖掘的领域特定预训练自适应
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining
作者: Vinayak Arannil, Sourav Sanjukta Bhabesh, Neha Narwal, Sai Nikhil Thirandas, Darren Yow-Bang Wang, Graham Horwood, Alex Anto Chirayath, Gouri Pandeshwar
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00260v1

摘要

大型语言模型 (LLM) 在执行各种任务的同时,已展现出在众多行业领域中有效泛化的非凡能力。这些能力中的许多都源于语言模型 (LM) 预训练阶段使用的数据。然而,当这些模型被要求在专门的或资源匮乏的行业领域中执行任务时,它们表现出局限性。最近的方法使用 LLM 生成特定领域的合成数据,但它们通常缺乏真实性和复杂性。或者,在医疗保健和金融等领域存在领域数据的情况下,大多数 LM 都是专有的,因此需要一种可扩展的方法来整理真实世界行业特定的预训练数据。在这项工作中,我们提出了一种自动且可扩展的框架 - DoPAMine:从种子引导的数据挖掘中进行特定领域的预训练适应,从大型数据语料库中挖掘特定领域的训练数据,以适应 LM 的领域。该框架利用 LLM 的参数知识来生成针对特定领域的多样化和具有代表性的种子数据,然后使用这些数据从大型数据语料库(如 Common Crawl)中挖掘真实世界数据。我们通过使用 DoPAMine 挖掘的数据训练两个特定领域的 70 亿参数 LLM(医疗保健和金融)来评估我们框架在持续预训练 (CPT) 设置中的性能。我们的实验表明,与基线相比,DoPAMine 在 MMLU、MedQA、MedMCQA 和 PubMedQA 数据集上的医疗保健任务中,在零样本和 5 样本设置中分别将预训练 LLM 的性能平均提高了 4.9% 和 5.1%,在 FiQA-SA、FPB 和 Headlines 数据集上的金融任务中,在零样本和 5 样本设置中分别提高了 2.9% 和 6.7%。