摘要
大型语言模型作为评判者为各种任务提供了一种有希望的替代方案,但其固有的偏差,尤其是位置偏差(即倾向于根据解决方案在提示中的位置来偏袒解决方案)已经损害了其有效性。我们的研究引入了一个系统框架来检查成对比较中的位置偏差,重点关注重复稳定性、位置一致性和偏好公平性。这项研究通过引入理解位置偏差的新概念并提供一个多维评估框架,为该领域做出了重大贡献。我们对 12 个大型语言模型评判者进行了实验,涵盖了 MTBench 和 DevBench,包括 22 个任务和大约 40 个解决方案生成模型(候选者),产生了超过 100,000 个评估实例。我们的研究结果证实了能够胜任的大型语言模型评判者中的位置偏差并非随机偶然,并且在不同的评判者和任务之间存在显著差异。此外,位置偏差受提示组件长度的影响较小,但受解决方案之间质量差距的显著影响。这些见解有助于优化评判模型选择、改进基准设计并为未来关于去偏见策略的研究提供信息,最终提高大型语言模型评判者的可靠性。