LLM2D
自我监督的属性感知动态偏好对齐
Self-supervised Attribute-aware Dynamic Preference Ranking Alignment
作者: Hongyu Yang, Qi Zhao, Zhenhua hu, Rui Li
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12189v1

摘要

arXiv:2502.12189v1 交叉发布类型: cross 摘要: 基于人类反馈的强化学习及其变体在生成有益、无害和诚实响应方面能够很好地与人类意向对齐。然而,它们大多依赖于昂贵的人类标注成对比较进行监督对齐,这不适合列表级别的场景,例如社区问题回答。此外,响应中的多个内在因素影响人类偏好,导致决策不一致性。因此,我们提出了**自监督**、**属性感知**、**动态**、**偏好**排序**方法**,称为**SeAdpra**。它基于属性感知距离因子(APDF)量化响应之间的偏好差异,并动态确定列表级别的对齐顺序。此外,它实现了细粒度的偏好差异学习,并能够实现与最优解的精确对齐。我们特别构建了一个具有挑战性的代码偏好数据集,名为StaCoCoQA,并引入了更经济有效且可扩展的偏好评估指标:PrefHit和PrefRecall。广泛的实验结果表明,SeAdpra在StaCoCoQA和八个流行领域的偏好数据集上均表现出优越的性能和泛化能力。