LLM2D

摘要

大型语言模型 (LLM) 彻底改变了人工智能的角色，但也带来了潜在的社会风险。为了引导 LLM 符合人类偏好，人们引入了对齐技术，并获得了越来越多的关注。然而，现有方法严重依赖高质量的正负训练对，而噪声正响应与负响应几乎无法区分。鉴于最近的 LLM 在生成有帮助的响应方面表现出色，这项工作转向一个新的研究问题：我们能否仅使用人类标注的负样本实现对齐，在减少有害性的同时保留有益性？为此，我们提出了分布式不喜欢优化 (D$^2$O)，它最大限度地提高了不喜欢响应与生成的非负响应之间的差异。通过这种方式，D$^2$O 有效地避开了有害信息，而无需整合噪声正样本，同时使用自生成响应作为锚点来避免崩溃。我们证明了 D$^2$O 可以被视为学习反映人类不喜欢负响应的分布式偏好模型，从理论上讲，它是实例级 DPO 的上限。大量的实验表明，我们的方法在生成质量方面具有可比性，并且在生成更少有害和更具信息性的响应方面超越了最新的强大基线，并具有更好的训练稳定性和更快的收敛速度。