LLM2D
捕捉细腻的偏好:面向偏好的精简distillation for小语言模型
Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models
作者: Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li, Xuming Hu
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14272v1

摘要

arXiv:2502.14272v1 类型: 横跨领域研究 摘要:使小型语言模型(SLMs)与人类价值观对齐通常涉及从大型语言模型(LLMs)中提取偏好知识。然而,现有的提取方法通过比较成对响应来建模教师LLMs的偏好知识,忽略了响应之间的差异程度。这一局限性阻碍了学生SLMs捕捉多种响应的细微偏好。在本文中,我们提出了一种偏好对齐蒸馏(PAD)框架,将教师的偏好知识建模为所有潜在偏好的一种概率分布,从而提供更细微的监督信号。我们开发PAD的洞察力源于语言模型可以作为奖励函数的演示,反映其内在偏好。基于此,PAD包含三个关键步骤:(1)使用高温度抽样不同的响应;(2)为教师和学生计算奖励以构造其内在偏好;以及(3)训练学生的内在偏好分布以与教师对齐。在四个主流对齐基准测试上的实验表明,PAD在所有情况下都显著优于现有方法,在AlpacaEval 2和Arena-Hard上实现了超过20%的改进,表明与人类偏好对齐效果更优。值得注意的是,在MT-Bench上,使用\textsc{Gemma}模型家族,通过PAD训练的学生超过了其教师,进一步验证了我们PAD的有效性。