摘要
将大型语言模型 (LLM) 与人类偏好对齐是构建有用且安全的 AI 工具的关键步骤,这通常涉及在监督数据集上进行训练。诸如直接偏好优化之类的流行算法依赖于根据人类反馈对 AI 生成的响应对进行排名。标注过程是对齐流程中最劳动密集且成本最高的环节,提高其效率将对 AI 发展产生重大影响。我们提出了一种从一组 AI 生成的响应中采样高质量训练数据集的策略,该策略侧重于获取最具信息量的响应对进行标注。合成 HH-RLHF 基准测试的实验结果表明,选择不同的响应对可以增强 LLM 的直接对齐,同时减少继承的标注错误。我们还将我们的方法应用于现实世界数据集 SHP2,从多个响应中选择最佳对。在不同的响应对上对齐的模型在对话任务中获得了最佳胜率。我们的研究结果表明,关注差异较大的对可以提高 LLM 对齐的效率,节省高达 65% 的标注员工作量。