摘要
arXiv:2504.12563v1 交叉类型: cross
摘要: 最近的小型语言模型,如Phi-3.5和Phi-4,依赖于通过大型语言模型生成的合成数据。对于其他用途场景,如将大型语言模型适配到特定领域,仍存在很多问题。合成数据的一个关键限制是多样性较低,这对其下游应用以改进其他模型产生了负面影响。为了解决这一问题,我们提出了一种名为MetaSynth的方法,该方法通过元提示来增加合成数据的多样性,即语言模型协调多个“专家”大型语言模型代理协作生成数据。仅使用MetaSynth生成的2500万词的合成数据,我们成功将一个训练良好的大型语言模型(Mistral-7B-v0.3)适应了两个专门领域——金融和生物医药,而不会牺牲该模型在通用任务中的能力。此外,我们使用七个自动评估指标来评估我们的合成数据的多样性,并发现其多样性接近大型语言模型预训练语料库。
通过持续预训练Mistral-7B-v0.3,使用MetaSynth的效果显著优于基线大型语言模型,在金融领域的性能提升高达4.08%,在生物医药领域的性能提升高达13.75%。即使模板提示包含先前生成的和变体的上下文示例数据,使用模板提示进行训练时,同一个模型的性能也会下降。我们的研究结果表明,在使用MetaSynth时,几百万词的多样合成数据(不混合任何真实数据)对于有效的领域适应是足够的。