LLM2D

摘要

arXiv:2504.10637v1 Announce Type: cross 摘要：估计语言模型之间的Kullback-Leibler（KL）散度有许多应用，例如基于人类反馈的强化学习（RLHF）、可解释性和知识蒸馏。然而，计算两个任意语言模型之间的精确KL散度是不可能的。因此，实践者通常会依赖于抽样估计方法。尽管可以轻松构造一个简单的蒙特卡洛（MC）估计器，以提供语言模型之间KL散度的无偏估计，但这个估计器众所周知具有很高的方差，并且甚至可能导致KL散度的负估计值，这是一个非负量。在本文中，我们介绍了一个Rao-Blackwell化估计器，该估计器同样是无偏的，并且可以证明其方差不大于标准的蒙特卡洛估计器。在情感控制微调的实验研究中，我们展示了我们的估计器在实践中提供了更稳定的KL估计，并显著减少了方差。此外，我们推导出了KL散度梯度的Rao-Blackwell化估计器，这导致了更稳定的训练，并生成了在奖励与KL之间 Pareto 边界上更为常见的模型，相比之下，使用梯度的蒙特卡洛估计器训练的模型则较少见。