LLM2D

摘要

arXiv:2502.08661v1 公告类型: cross 摘要: 随着大规模语言模型（LLMs）的发展，它们在上下文学习和少样本语言生成方面的能力得到了极大的提升。这使得使用LLMs生成高质量的合成数据以增强小型模型如在线检索器或弱LLMs的性能变得更加常见。然而，LLM生成的合成数据在关键语言属性（如风格、语调、内容比例等）上经常与真实数据不符。这可能导致直接将合成数据与真实数据混合，从而扭曲原始数据分布，潜在地妨碍性能提升。为了解决这个问题，我们提出了SynAlign：一种基于关键属性分布匹配的合成数据生成和过滤框架。在生成之前，SynAlign采用由高斯过程模型代理的不确定性跟踪器，迭代选择与已选择的数据集群不同的集群，作为新数据合成的示例，从而促进对真实数据多样性的高效探索。然后，采用潜在属性推理方法：LLM总结示例的语言属性，然后基于这些属性生成新数据。这种方法有助于生成具有真实数据中出现的语言属性的多样化数据。生成后，使用最大均值偏差作为目标函数学习每条合成数据的采样权重，以确保与真实数据的分布匹配。我们在多个文本预测任务上的实验显示了显著的性能提升。我们还在在线检索器上进行了在线A/B测试，以证明SynAlign的有效性。