摘要
arXiv:2502.04997v1 交叉公告类型:交叉
摘要:大型语言模型(LLMs)越来越多地被用作自动化裁判,评估推荐系统、搜索引擎和其他主观任务,而依靠人类评估者进行评估可能会很昂贵、耗时且不具扩展性。LLMs 提供了一种有效的连续自动化评估解决方案。然而,由于使用这些判断构建和改进的系统最终是为人使用的,因此确保LLMs的判断与人类评估者紧密对齐至关重要,以确保此类系统保持以人类为中心。另一方面,由于人类判断在个体差异和偏差方面的差异性,对齐LLMs的判断与人类评估者具有挑战性。我们提出了一种简单而有效的框架,用于在无需重新训练或微调LLMs的情况下,将LLMs的判断对齐到个别的人类评估者或他们的综合判断。我们的方法在LLMs的输出与人类判断之间学习线性映射,仅使用少量校准示例进行训练,在29个任务中实现了超过142%的平均一致性改进。值得注意的是,我们的方法在零样本和少量样本设置中有效,在六个任务中的四个任务上超过了人类之间的共识,并使较小的LLMs能够达到与较大模型相当的性能。