LLM2D
逆向宪法AI:将偏好压缩为原则
Inverse Constitutional AI: Compressing Preferences into Principles
作者: Arduin Findeis, Timo Kaufmann, Eyke H\"ullermeier, Samuel Albanie, Robert Mullins
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2406.06560v2

摘要

arXiv:2406.06560v2 通知类型: 替换-交叉 摘要:反馈数据广泛用于 fine-tune 和评估最先进的 AI 模型。成对文本偏好是一种常见的形式,其中人类或 AI 注释员选择两个选项中的“更好”一个。这类偏好用于训练(奖励)模型或将模型按综合统计进行排名。对于许多应用而言,理解注释员的偏好不仅是建模它们,而且还了解它们是很有价值的——尤其是因为先前大量研究表明偏好数据集中的各种未预期偏见。然而,偏好数据集仍然很难解读。无论是黑盒奖励模型还是统计方法都无法解释为何某个文本比另一个更受偏好。手动解读大量的(长)响应配对通常同样不可行。在本文中,我们引入了逆宪法 AI (ICAI) 问题,将成对文本偏好数据的解释形式化为压缩任务。在宪法 AI 中,一组原则(宪法)用于提供反馈并 fine-tune AI 模型。ICAI 将这一过程反过来:给定一个反馈数据集,我们的目标是从中提取一个宪法,该宪法最好地使大型语言模型 (LLM) 能够重构原始注释。我们提出相应的 ICAI 算法,并基于多个数据集的注释重构准确性对其进行定量验证:(a) 具有已知原则的合成反馈数据;(b) AlpacaEval 交叉注释的人类反馈数据;(c) 群体聊天机器人竞技场数据;以及 (d) 来自不同人口群体的 PRISM 数据。作为对原始数据集简短且可解释的表示,生成的宪法具有许多潜在的应用场景:帮助识别不受欢迎的注释员偏见、更好地理解模型性能、将反馈扩展到未见数据或将模型适应个别用户或群体偏好。我们已在 https://github.com/rdnfn/icai 发布了源代码。