摘要
由于高质量、特定数据的稀缺性,合成数据已成为大型语言模型 (LLM) 后训练任务中不可或缺的资源。虽然已经开发出各种生成合成数据的技术,但在合成数据的实际效果和理论理解之间仍然存在明显的差距。为了解决这一挑战,我们首先对普遍的合成数据生成过程进行了详细的建模。在此模型的基础上,我们证明了后训练模型的泛化能力由生成模型的信息增益决定,这一点可以通过新的反瓶颈视角进行分析。此外,我们引入了通过互信息 (GGMI) 的泛化增益的概念,并阐明了泛化增益与信息增益之间的关系。该分析为合成数据生成提供了理论基础,并进一步突出了其与后训练模型泛化能力的联系,为合成数据生成技术的設計和后训练过程的优化提供了理解。我们通过匿名 GitHub 存储库 (https://anonymous.4open.science/r/Understanding-Synthetic) 公开发布了我们的代码。