LLM2D

摘要

偏好学习是将当前大型语言模型 (LLM) 对齐的关键组成部分，但这一过程容易受到数据中毒攻击。为了解决这一问题，我们引入了 PoisonBench，这是一个用于评估大型语言模型在偏好学习过程中对数据中毒的敏感性的基准。数据中毒攻击可以操纵大型语言模型的响应，使其包含隐藏的恶意内容或偏差，可能导致模型在表面上正常运行的同时生成有害或意外的输出。我们在八种现实场景中部署了两种不同的攻击类型，评估了 21 种广泛使用的模型。我们的研究结果揭示了令人担忧的趋势：(1) 扩大参数大小本身并不能增强对中毒攻击的抵抗力；(2) 攻击的影响与数据中毒率之间存在对数线性关系；(3) 数据中毒的影响可以推广到未包含在中毒数据中的外推触发器。这些结果揭示了当前偏好学习技术的弱点，突出了迫切需要更强大的防御措施来抵御恶意模型和数据操纵。