LLM2D
回顾从弱到强泛化的理论与实践:前向KL散度 vs. 后向KL散度
Revisiting Weak-to-Strong Generalization in Theory and Practice: Reverse KL vs. Forward KL
作者: Wei Yao, Wenkai Yang, Ziqiao Wang, Yankai Lin, Yong Liu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11107v1

摘要

arXiv:2502.11107v1Announce Type: cross 摘要:随着大型语言模型向着超人类性能迈进,确保它们与人类价值观和能力的对齐变得越来越复杂。由较弱模型的预测引导较强的系统提供了一种前景广阔的方法,但其效果可能会受到这些较弱预测内在噪声和不准确性的影响。为了解决这一问题,我们提出了一种理论上有依据的方法,用反向KL散度替换前向KL散度——前向KL散度的集中行为可能会过度拟合到不完美的弱信号。反向KL散度的零压制效应优先考虑高置信度预测,有效地减轻了不可靠弱监督的影响。理论上,我们扩展了现有的边界,并为前向和反向KL散度推导出了更紧的下界,证明了反向KL至少能够达到与前向KL相当的保证。尤为重要的是,在对顶层进行充分预训练后进行微调,反向KL唯一地保证了它在分歧的幅度上优于其弱监督者——这是一个前向KL无法提供的保证。实验上,我们证明了在大多数情况下,反向KL和反向交叉熵能够使强大的模型始终优于使用前向KL和标准交叉熵进行训练的模型,突显了这些反向损失的实际优势。