LLM2D

摘要

arXiv:2502.14272v1 类型: 横跨领域研究摘要：使小型语言模型（SLMs）与人类价值观对齐通常涉及从大型语言模型（LLMs）中提取偏好知识。然而，现有的提取方法通过比较成对响应来建模教师LLMs的偏好知识，忽略了响应之间的差异程度。这一局限性阻碍了学生SLMs捕捉多种响应的细微偏好。在本文中，我们提出了一种偏好对齐蒸馏（PAD）框架，将教师的偏好知识建模为所有潜在偏好的一种概率分布，从而提供更细微的监督信号。我们开发PAD的洞察力源于语言模型可以作为奖励函数的演示，反映其内在偏好。基于此，PAD包含三个关键步骤：（1）使用高温度抽样不同的响应；（2）为教师和学生计算奖励以构造其内在偏好；以及（3）训练学生的内在偏好分布以与教师对齐。在四个主流对齐基准测试上的实验表明，PAD在所有情况下都显著优于现有方法，在AlpacaEval 2和Arena-Hard上实现了超过20%的改进，表明与人类偏好对齐效果更优。值得注意的是，在MT-Bench上，使用\textsc{Gemma}模型家族，通过PAD训练的学生超过了其教师，进一步验证了我们PAD的有效性。