摘要
大型语言模型 (LLM) 与人类偏好(例如,通过基于人类反馈的强化学习或 RLHF)保持一致,对于确保其在现实场景中的有效性至关重要。尽管 LLM 对齐技术取得了重大进展,但不同类型偏好数据对模型性能的影响尚未得到系统性探索。本研究调查了直接偏好优化 (DPO) 在微调预训练 LLM 中的可扩展性、数据效率和有效性,旨在降低其对大量(且昂贵)偏好数据的依赖。我们 (1) 系统地比较了使用不同比例的组合偏好判断数据集微调的模型的性能,以定义 DPO 的改进曲线并评估其在数据受限环境中的有效性;以及 (2) 为开发选择性偏好数据使用的最佳方法提供见解。我们的研究表明,增加用于训练的数据量通常会增强和稳定模型性能。此外,使用多种不同类型的数据集的组合会显著提高模型的有效性。此外,当使用不同类型的提示分别训练模型时,使用对话式提示训练的模型优于使用问答式提示训练的模型。