LLM2D

摘要

arXiv:2502.11107v1Announce Type: cross 摘要：随着大型语言模型向着超人类性能迈进，确保它们与人类价值观和能力的对齐变得越来越复杂。由较弱模型的预测引导较强的系统提供了一种前景广阔的方法，但其效果可能会受到这些较弱预测内在噪声和不准确性的影响。为了解决这一问题，我们提出了一种理论上有依据的方法，用反向KL散度替换前向KL散度——前向KL散度的集中行为可能会过度拟合到不完美的弱信号。反向KL散度的零压制效应优先考虑高置信度预测，有效地减轻了不可靠弱监督的影响。理论上，我们扩展了现有的边界，并为前向和反向KL散度推导出了更紧的下界，证明了反向KL至少能够达到与前向KL相当的保证。尤为重要的是，在对顶层进行充分预训练后进行微调，反向KL唯一地保证了它在分歧的幅度上优于其弱监督者——这是一个前向KL无法提供的保证。实验上，我们证明了在大多数情况下，反向KL和反向交叉熵能够使强大的模型始终优于使用前向KL和标准交叉熵进行训练的模型，突显了这些反向损失的实际优势。