LLM2D

摘要

大型语言模型 (LLM) 作为评判者在各种任务中为人类评估者提供了一种有前景的替代方案，但其固有的偏差，尤其是位置偏差（倾向于根据解决方案在提示中的位置来偏袒解决方案）损害了其有效性。我们的研究引入了一个系统框架来检查成对比较中的位置偏差，重点关注重复稳定性、位置一致性和偏好公平性。这项研究通过引入理解位置偏差的新概念和提供用于评估的多维框架，为该领域做出了重大贡献。我们使用 12 个 LLM 评判者对 MTBench 和 DevBench 进行了实验，涵盖了 22 个任务和大约 40 个解决方案生成模型（候选者），产生了超过 100,000 个评估实例。我们的发现证实了能力强的 LLM 评判者中的位置偏差并非由于随机机会，并且在不同评判者和任务之间观察到了显著的变化。此外，位置偏差受提示组件长度的影响较小，但受解决方案之间质量差距的影响较大。这些见解可以帮助优化评判者模型选择、改进基准设计并为未来关于去偏差策略的研究提供信息，最终提高 LLM 评判者的可靠性。