LLM2D

摘要

arXiv:2410.01720v3 声明类型: 替换摘要：合成数据已成为大型语言模型（LLMs）后训练任务中不可或缺的资源，原因在于高质量、特定数据的稀缺性。尽管已经开发出了各种生成合成数据的方法，但在合成数据的实际效果与我们对该现象的理论理解之间仍存在明显的差距。为解决这一挑战，我们首先详细描述了常见的合成数据生成过程。在此基础上，我们表明后训练模型的泛化能力在很大程度上取决于从生成模型中获得的信息增益，这是从一种新颖的逆瓶颈视角分析得出的结论。此外，我们提出了互信息下的泛化增益（GGMI）的概念，并阐释了泛化增益与信息增益之间的关系。这种分析为合成数据生成提供了理论基础，并进一步突显了合成数据生成与后训练模型泛化能力之间的联系，为合成数据生成技术的设计和后训练过程的优化提供了见解。我们已开源我们的代码，地址为 https://github.com/ZyGan1999/Towards-a-Theoretical-Understanding-of-Synthetic-Data-in-LLM-Post-Training。