摘要
arXiv:2502.14400v1 宣布类型: 新闻
摘要: 使大型语言模型(LLM)的响应与人类偏好对齐对于构建安全可控的人工智能系统至关重要。虽然基于Plackett-Luce(PL)和Bradley-Terry(BT)模型的偏好优化方法显示出潜力,但仍面临诸如不良内容处理不佳、不偏好响应利用效率低下以及,特别是对于PL,计算成本高昂等问题。为了解决这些问题,我们提出了一种新的框架——硬偏好采样(HPS),用于稳健且高效的对齐人类偏好。HPS引入了一种训练损失函数,优先选择最偏好响应并拒绝所有不偏好和有害的响应。它强调“硬”不偏好响应——那些与偏好响应非常相似的响应——以增强模型的拒绝能力。通过利用单次采样蒙特卡洛采样策略,HPS减少了计算开销同时保持对齐质量。从理论上讲,HPS提高了样本效率,超过了现有的PL方法,并最大化了偏好和不偏好响应之间的奖励差距,从而确保更清晰的区别。在HH-RLHF和PKU-Safety数据集上的实验验证了HPS的有效性,实现了与现有方法相当的BLEU和奖励评分,同时大幅提高了奖励差距,从而减少了有害内容的生成。