LLM2D

摘要

arXiv:2502.12189v1 交叉发布类型: cross 摘要: 基于人类反馈的强化学习及其变体在生成有益、无害和诚实响应方面能够很好地与人类意向对齐。然而，它们大多依赖于昂贵的人类标注成对比较进行监督对齐，这不适合列表级别的场景，例如社区问题回答。此外，响应中的多个内在因素影响人类偏好，导致决策不一致性。因此，我们提出了**自监督**、**属性感知**、**动态**、**偏好**排序**方法**，称为**SeAdpra**。它基于属性感知距离因子（APDF）量化响应之间的偏好差异，并动态确定列表级别的对齐顺序。此外，它实现了细粒度的偏好差异学习，并能够实现与最优解的精确对齐。我们特别构建了一个具有挑战性的代码偏好数据集，名为StaCoCoQA，并引入了更经济有效且可扩展的偏好评估指标：PrefHit和PrefRecall。广泛的实验结果表明，SeAdpra在StaCoCoQA和八个流行领域的偏好数据集上均表现出优越的性能和泛化能力。