LLM2D

摘要

偏好优化（PO）已被证明是将语言模型与人类期望行为对齐的有效步骤。目前遵循离线直接偏好优化目标的变体，专注于一个严格的设置，其中所有标记都为 KL 散度和奖励损失函数贡献信号。然而，人类偏好并非受序列中的每个词语同等影响，而是经常依赖于特定词语或短语，例如，有毒词语的存在会导致非偏好响应。基于此观察，我们认为在 PO 期间不应平等地加权所有标记，并提出了一种名为 SparsePO 的灵活目标，旨在自动学习在 PO 训练期间加权每个标记对应的 KL 散度和奖励。我们提出了两种不同的权重掩码变体，它们可以从参考模型本身导出，也可以动态学习。值得注意的是，我们的方法在学习的掩码中引入了稀疏性，允许模型学习如何最好地加权标记级别的奖励和 KL 散度贡献，从而学习最佳的掩码稀疏性水平。在多个领域（包括情感控制、对话、文本摘要和文本到代码生成）进行的大量实验表明，我们的方法根据目标任务为标记分配有意义的权重，生成更多具有所需偏好的响应，并且在推理任务方面比其他标记级和响应级 PO 方法最多提高了 2 个百分点。