摘要
arXiv:2504.10637v2 宣告类型: replace-cross
摘要:估计语言模型之间的Kullback--Leibler(KL)散度有许多应用,例如基于人类反馈的强化学习(RLHF)、可解释性和知识蒸馏。然而,计算任意两个语言模型之间的精确KL散度是不现实的。因此,从业者经常依赖于基于采样的估计器。虽然可以轻松构造一个简单的Monte Carlo(MC)估计器来提供语言模型之间KL散度的无偏估计,但这个估计器著名地具有高方差,甚至可能导致KL散度的负估计,这应为非负量。在本文中,我们介绍了一种拉奥-布莱克威尔化(Rao-Blackwellized)估计器,该估计器同样是无偏的,并且严格证明其方差小于或等于标准MC估计器的方差。在针对情感控制微调的实验研究中,我们展示了我们的估计器提供了更稳定的KL估计,并在实践中大大减少了方差。此外,我们推导出KL散度梯度的类似拉奥-布莱克威尔化估计器,这导致训练更为稳定,并且相对于使用梯度MC估计器训练的模型,更常出现在奖励与KL权衡的帕累托前沿上。