LLM2D
少量样本_LLМ合成数据与分布匹配
Few-shot_LLM_Synthetic_Data_with_Distribution_Matching
作者: Jiyuan Ren, Zhaocheng Du, Zhihao Wen, Qinglin Jia, Sunhao Dai, Chuhan Wu, Zhenhua Dong
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08661v1

摘要

arXiv:2502.08661v1 公告类型: cross 摘要: 随着大规模语言模型(LLMs)的发展,它们在上下文学习和少样本语言生成方面的能力得到了极大的提升。这使得使用LLMs生成高质量的合成数据以增强小型模型如在线检索器或弱LLMs的性能变得更加常见。然而,LLM生成的合成数据在关键语言属性(如风格、语调、内容比例等)上经常与真实数据不符。这可能导致直接将合成数据与真实数据混合,从而扭曲原始数据分布,潜在地妨碍性能提升。为了解决这个问题,我们提出了SynAlign:一种基于关键属性分布匹配的合成数据生成和过滤框架。在生成之前,SynAlign采用由高斯过程模型代理的不确定性跟踪器,迭代选择与已选择的数据集群不同的集群,作为新数据合成的示例,从而促进对真实数据多样性的高效探索。然后,采用潜在属性推理方法:LLM总结示例的语言属性,然后基于这些属性生成新数据。这种方法有助于生成具有真实数据中出现的语言属性的多样化数据。生成后,使用最大均值偏差作为目标函数学习每条合成数据的采样权重,以确保与真实数据的分布匹配。我们在多个文本预测任务上的实验显示了显著的性能提升。我们还在在线检索器上进行了在线A/B测试,以证明SynAlign的有效性。