摘要
随着大型语言模型 (LLM) 展示出越来越先进的能力,使其行为与人类价值观和偏好保持一致对于其广泛应用至关重要。虽然之前的研究集中在对有用性、无害性和诚实等原则的一般性对齐,但对考虑个人和多样化偏好的需求却被很大程度上忽视,这可能会损害定制的人类体验。为了解决这一差距,我们训练了能够“互动以对齐”的 LLM,本质上培养了 LLM 的元技能,通过多轮对话隐式推断当前用户的未言明个性化偏好,然后动态地将其后续行为和响应与这些推断出的偏好对齐。我们的方法涉及通过最初创建种子示例来建立一个由 3,310 个不同用户角色组成的多样化池,然后通过迭代自生成和过滤来扩展这些种子示例。在不同用户角色的指导下,我们利用多 LLM 协作来开发一个包含 3,000 多个树形结构的多轮对话的多轮偏好数据集。最后,我们应用监督微调和强化学习来利用该数据集增强 LLM。为了评估,我们建立了 ALOE(ALign With CustOmized PrEferences)基准,该基准包含 100 个精心选择的示例和精心设计的指标,用于衡量对话期间的定制对齐性能。实验结果证明了我们的方法在通过互动实现动态、个性化对齐方面的有效性。