摘要
arXiv:2504.10637v1 Announce Type: cross
摘要:估计语言模型之间的Kullback-Leibler(KL)散度有许多应用,例如基于人类反馈的强化学习(RLHF)、可解释性和知识蒸馏。然而,计算两个任意语言模型之间的精确KL散度是不可能的。因此,实践者通常会依赖于抽样估计方法。尽管可以轻松构造一个简单的蒙特卡洛(MC)估计器,以提供语言模型之间KL散度的无偏估计,但这个估计器众所周知具有很高的方差,并且甚至可能导致KL散度的负估计值,这是一个非负量。在本文中,我们介绍了一个Rao-Blackwell化估计器,该估计器同样是无偏的,并且可以证明其方差不大于标准的蒙特卡洛估计器。在情感控制微调的实验研究中,我们展示了我们的估计器在实践中提供了更稳定的KL估计,并显著减少了方差。此外,我们推导出了KL散度梯度的Rao-Blackwell化估计器,这导致了更稳定的训练,并生成了在奖励与KL之间 Pareto 边界上更为常见的模型,相比之下,使用梯度的蒙特卡洛估计器训练的模型则较少见。