LLM2D

摘要

随着大型语言模型 (LLM) 展示出越来越先进的能力，使其行为与人类价值观和偏好保持一致对于其广泛应用至关重要。虽然之前的研究集中在对有用性、无害性和诚实等原则的一般性对齐，但对考虑个人和多样化偏好的需求却被很大程度上忽视，这可能会损害定制的人类体验。为了解决这一差距，我们训练了能够“互动以对齐”的 LLM，本质上培养了 LLM 的元技能，通过多轮对话隐式推断当前用户的未言明个性化偏好，然后动态地将其后续行为和响应与这些推断出的偏好对齐。我们的方法涉及通过最初创建种子示例来建立一个由 3,310 个不同用户角色组成的多样化池，然后通过迭代自生成和过滤来扩展这些种子示例。在不同用户角色的指导下，我们利用多 LLM 协作来开发一个包含 3,000 多个树形结构的多轮对话的多轮偏好数据集。最后，我们应用监督微调和强化学习来利用该数据集增强 LLM。为了评估，我们建立了 ALOE（ALign With CustOmized PrEferences）基准，该基准包含 100 个精心选择的示例和精心设计的指标，用于衡量对话期间的定制对齐性能。实验结果证明了我们的方法在通过互动实现动态、个性化对齐方面的有效性。