摘要
arXiv:2504.12663v1 类别: cross
摘要: 将语言模型与人类偏好对齐面临着显著的挑战,特别是在实现个性化对齐而不产生过高的计算成本的情况下。现有方法依赖于奖励信号和额外的标注数据,这限制了它们的可扩展性和对多种人类价值观的适应性。为了应对这些挑战,我们引入了Persona-judge这一新颖的辨别性范式,它能够在未训练的情况下实现对未见偏好的个性化对齐。Persona-judge 不是通过外部奖励反馈优化策略参数,而是利用模型自身的内在偏好判断能力。具体地,草稿模型生成给定偏好条件下的候选令牌,而判断模型则体现另一种偏好,对预测的令牌是否接受进行交叉验证。实验结果表明,Persona-judge 利用了模型固有的偏好评估机制,提供了一种可扩展且计算效率高的个性化对齐解决方案,为更加适应性和定制化的对齐铺平了道路。