LLM2D

摘要

arXiv:2504.12563v1 交叉类型: cross 摘要: 最近的小型语言模型，如Phi-3.5和Phi-4，依赖于通过大型语言模型生成的合成数据。对于其他用途场景，如将大型语言模型适配到特定领域，仍存在很多问题。合成数据的一个关键限制是多样性较低，这对其下游应用以改进其他模型产生了负面影响。为了解决这一问题，我们提出了一种名为MetaSynth的方法，该方法通过元提示来增加合成数据的多样性，即语言模型协调多个“专家”大型语言模型代理协作生成数据。仅使用MetaSynth生成的2500万词的合成数据，我们成功将一个训练良好的大型语言模型（Mistral-7B-v0.3）适应了两个专门领域——金融和生物医药，而不会牺牲该模型在通用任务中的能力。此外，我们使用七个自动评估指标来评估我们的合成数据的多样性，并发现其多样性接近大型语言模型预训练语料库。通过持续预训练Mistral-7B-v0.3，使用MetaSynth的效果显著优于基线大型语言模型，在金融领域的性能提升高达4.08%，在生物医药领域的性能提升高达13.75%。即使模板提示包含先前生成的和变体的上下文示例数据，使用模板提示进行训练时，同一个模型的性能也会下降。我们的研究结果表明，在使用MetaSynth时，几百万词的多样合成数据（不混合任何真实数据）对于有效的领域适应是足够的。