LLM2D

摘要

arXiv:2504.10637v2 宣告类型: replace-cross 摘要：估计语言模型之间的Kullback--Leibler（KL）散度有许多应用，例如基于人类反馈的强化学习（RLHF）、可解释性和知识蒸馏。然而，计算任意两个语言模型之间的精确KL散度是不现实的。因此，从业者经常依赖于基于采样的估计器。虽然可以轻松构造一个简单的Monte Carlo（MC）估计器来提供语言模型之间KL散度的无偏估计，但这个估计器著名地具有高方差，甚至可能导致KL散度的负估计，这应为非负量。在本文中，我们介绍了一种拉奥-布莱克威尔化（Rao-Blackwellized）估计器，该估计器同样是无偏的，并且严格证明其方差小于或等于标准MC估计器的方差。在针对情感控制微调的实验研究中，我们展示了我们的估计器提供了更稳定的KL估计，并在实践中大大减少了方差。此外，我们推导出KL散度梯度的类似拉奥-布莱克威尔化估计器，这导致训练更为稳定，并且相对于使用梯度MC估计器训练的模型，更常出现在奖励与KL权衡的帕累托前沿上。