LLM2D

摘要

arXiv:2502.08661v2 通知类型: 替换-交叉摘要: 随着大规模语言模型（LLMs）的发展，它们进行上下文学习和少样本语言生成的能力得到了显著提升。这促使人们使用LLMs生成高质量的合成数据，以增强在线检索器或弱LLMs等较小模型的性能。然而，LLM生成的合成数据在关键语言属性（如风格、语气、内容比例等）上往往与真实数据不同。因此，直接将这些合成数据与真实数据混合可能会扭曲原始数据分布，从而可能妨碍性能提升。为了解决这一问题，我们引入了SynAlign：一种基于关键属性分布匹配的合成数据生成和过滤框架。在生成之前，SynAlign利用高斯过程模型代理的不确定性跟踪器，迭代地选择与已选数据集群不同的数据集群作为新数据合成的示例，从而促进真实数据多样性的高效探索。然后，采用潜在属性推理方法：LLM总结示例的语言属性，然后基于这些属性生成新的数据。这种方法可以促进生成具有在真实数据中出现的语言属性的多样化数据。生成之后，采用最大均值差异作为目标函数来学习每条合成数据的采样权重，确保与真实数据的分布匹配。我们在多项文本预测任务上的实验显示了显著的性能提升。我们还在在线检索器上进行了在线A/B测试，以证明SynAlign的有效性。