LLM2D
稀疏PO:通过稀疏词元掩码控制LLM的偏好对齐
SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks
作者: Fenia Christopoulou, Ronald Cardenas, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05102v1

摘要

偏好优化(PO)已被证明是将语言模型与人类期望行为对齐的有效步骤。目前遵循离线直接偏好优化目标的变体,专注于一个严格的设置,其中所有标记都为 KL 散度和奖励损失函数贡献信号。然而,人类偏好并非受序列中的每个词语同等影响,而是经常依赖于特定词语或短语,例如,有毒词语的存在会导致非偏好响应。基于此观察,我们认为在 PO 期间不应平等地加权所有标记,并提出了一种名为 SparsePO 的灵活目标,旨在自动学习在 PO 训练期间加权每个标记对应的 KL 散度和奖励。我们提出了两种不同的权重掩码变体,它们可以从参考模型本身导出,也可以动态学习。值得注意的是,我们的方法在学习的掩码中引入了稀疏性,允许模型学习如何最好地加权标记级别的奖励和 KL 散度贡献,从而学习最佳的掩码稀疏性水平。在多个领域(包括情感控制、对话、文本摘要和文本到代码生成)进行的大量实验表明,我们的方法根据目标任务为标记分配有意义的权重,生成更多具有所需偏好的响应,并且在推理任务方面比其他标记级和响应级 PO 方法最多提高了 2 个百分点。