LLM2D

摘要

偏好优化 (PO)已被证明是将语言模型与人类期望行为对齐的有效步骤。当前的变体遵循离线直接偏好优化目标，专注于一个严格的设置，其中所有标记都将 KL 散度和奖励作为信号贡献给损失函数。然而，人类偏好并非受序列中每个词的影响相同，而往往取决于特定的词或短语，例如，有害词汇的存在会导致非偏好响应。基于这一观察，我们认为在 PO 过程中不应平等地对待所有标记，并提出了一种名为 SparsePO 的灵活目标，旨在自动学习在 PO 训练期间对每个标记对应的 KL 散度和奖励进行加权。我们提出了两种不同的权重掩码变体，它们可以从参考模型本身导出，也可以动态学习。值得注意的是，我们的方法在学习的掩码中诱导稀疏性，允许模型学习如何最好地加权标记级别的奖励和 KL 散度贡献，学习最佳的掩码稀疏性水平。在多个领域（包括情感控制、对话、文本摘要和文本到代码生成）进行的大量实验表明，我们的方法根据目标任务为标记分配有意义的权重，生成更多具有所需偏好的响应，并在推理任务上比其他标记级和响应级 PO 方法提高了高达 2 个百分点。