LLM2D
稀疏PO:通过稀疏标记掩码控制大型语言模型的偏好对齐
SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks
作者: Fenia Christopoulou, Ronald Cardenas, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05102v2

摘要

偏好优化 (PO)已被证明是将语言模型与人类期望行为对齐的有效步骤。当前的变体遵循离线直接偏好优化目标,专注于一个严格的设置,其中所有标记都将 KL 散度和奖励作为信号贡献给损失函数。然而,人类偏好并非受序列中每个词的影响相同,而往往取决于特定的词或短语,例如,有害词汇的存在会导致非偏好响应。基于这一观察,我们认为在 PO 过程中不应平等地对待所有标记,并提出了一种名为 SparsePO 的灵活目标,旨在自动学习在 PO 训练期间对每个标记对应的 KL 散度和奖励进行加权。我们提出了两种不同的权重掩码变体,它们可以从参考模型本身导出,也可以动态学习。值得注意的是,我们的方法在学习的掩码中诱导稀疏性,允许模型学习如何最好地加权标记级别的奖励和 KL 散度贡献,学习最佳的掩码稀疏性水平。在多个领域(包括情感控制、对话、文本摘要和文本到代码生成)进行的大量实验表明,我们的方法根据目标任务为标记分配有意义的权重,生成更多具有所需偏好的响应,并在推理任务上比其他标记级和响应级 PO 方法提高了高达 2 个百分点。