LLM2D

摘要

从成对比较中学习奖励模型是许多领域（包括自主控制、对话代理和推荐系统）中的一个基本组成部分，其广泛目标是使自动化决策与用户偏好保持一致。这些方法需要收集人们的偏好信息，反馈通常是匿名提供的。由于偏好是主观的，因此没有黄金标准可以进行比较；然而，高影响力系统对偏好学习的依赖性，使得恶意行为者有很强的动机去歪曲以这种方式收集的数据以达到他们的目的。我们通过考虑一个可以翻转一小部分偏好比较以促进或降低目标结果的攻击者来调查这种漏洞的性质和程度。我们针对这些攻击提出了两类算法方法：一种基于梯度的方法和几种基于距离排序方法的变体。接下来，我们评估这两类最佳攻击在自主控制、推荐系统和文本提示响应偏好学习这三个领域的数据集中成功实现恶意目标的有效性。我们发现，最佳攻击通常非常成功，在最极端的情况下，只有0.3%的数据被污染就能达到100%的成功率。然而，哪个攻击是最好的，在不同领域之间差异很大。此外，我们观察到，更简单、更可扩展的基于距离排序的方法通常与基于梯度的方法具有竞争力，有时甚至显著优于后者。最后，我们表明，针对其他类型中毒攻击的最新防御措施在我们这种情况下效果有限。