LLM2D

摘要

arXiv:2504.12663v1 类别: cross 摘要: 将语言模型与人类偏好对齐面临着显著的挑战，特别是在实现个性化对齐而不产生过高的计算成本的情况下。现有方法依赖于奖励信号和额外的标注数据，这限制了它们的可扩展性和对多种人类价值观的适应性。为了应对这些挑战，我们引入了Persona-judge这一新颖的辨别性范式，它能够在未训练的情况下实现对未见偏好的个性化对齐。Persona-judge 不是通过外部奖励反馈优化策略参数，而是利用模型自身的内在偏好判断能力。具体地，草稿模型生成给定偏好条件下的候选令牌，而判断模型则体现另一种偏好，对预测的令牌是否接受进行交叉验证。实验结果表明，Persona-judge 利用了模型固有的偏好评估机制，提供了一种可扩展且计算效率高的个性化对齐解决方案，为更加适应性和定制化的对齐铺平了道路。