LLM2D
理解 LLM 后训练中合成数据的理论基础:逆瓶颈视角
Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective
作者: Zeyu Gan, Yong Liu
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01720v1

摘要

由于高质量、特定数据的稀缺性,合成数据已成为大型语言模型 (LLM) 后训练任务中不可或缺的资源。虽然已经开发出各种生成合成数据的技术,但在合成数据的实际效果和理论理解之间仍然存在明显的差距。为了解决这一挑战,我们首先对普遍的合成数据生成过程进行了详细的建模。在此模型的基础上,我们证明了后训练模型的泛化能力由生成模型的信息增益决定,这一点可以通过新的反瓶颈视角进行分析。此外,我们引入了通过互信息 (GGMI) 的泛化增益的概念,并阐明了泛化增益与信息增益之间的关系。该分析为合成数据生成提供了理论基础,并进一步突出了其与后训练模型泛化能力的联系,为合成数据生成技术的設計和后训练过程的优化提供了理解。我们通过匿名 GitHub 存储库 (https://anonymous.4open.science/r/Understanding-Synthetic) 公开发布了我们的代码。