LLM2D

摘要

arXiv:2502.14400v1 宣布类型: 新闻摘要: 使大型语言模型（LLM）的响应与人类偏好对齐对于构建安全可控的人工智能系统至关重要。虽然基于Plackett-Luce（PL）和Bradley-Terry（BT）模型的偏好优化方法显示出潜力，但仍面临诸如不良内容处理不佳、不偏好响应利用效率低下以及，特别是对于PL，计算成本高昂等问题。为了解决这些问题，我们提出了一种新的框架——硬偏好采样（HPS），用于稳健且高效的对齐人类偏好。HPS引入了一种训练损失函数，优先选择最偏好响应并拒绝所有不偏好和有害的响应。它强调“硬”不偏好响应——那些与偏好响应非常相似的响应——以增强模型的拒绝能力。通过利用单次采样蒙特卡洛采样策略，HPS减少了计算开销同时保持对齐质量。从理论上讲，HPS提高了样本效率，超过了现有的PL方法，并最大化了偏好和不偏好响应之间的奖励差距，从而确保更清晰的区别。在HH-RLHF和PKU-Safety数据集上的实验验证了HPS的有效性，实现了与现有方法相当的BLEU和奖励评分，同时大幅提高了奖励差距，从而减少了有害内容的生成。