LLM2D

摘要

由于高质量、特定数据的稀缺性，合成数据已成为大型语言模型 (LLM) 后训练任务中不可或缺的资源。虽然已经开发出各种生成合成数据的技术，但在合成数据的实际效果和理论理解之间仍然存在明显的差距。为了解决这一挑战，我们首先对普遍的合成数据生成过程进行了详细的建模。在此模型的基础上，我们证明了后训练模型的泛化能力由生成模型的信息增益决定，这一点可以通过新的反瓶颈视角进行分析。此外，我们引入了通过互信息 (GGMI) 的泛化增益的概念，并阐明了泛化增益与信息增益之间的关系。该分析为合成数据生成提供了理论基础，并进一步突出了其与后训练模型泛化能力的联系，为合成数据生成技术的設計和后训练过程的优化提供了理解。我们通过匿名 GitHub 存储库 (https://anonymous.4open.science/r/Understanding-Synthetic) 公开发布了我们的代码。