LLM2D
探究LLM作为法官时的非传递性
Investigating Non-Transitivity in LLM-as-a-Judge
作者: Yi Xu, Laura Ruis, Tim Rockt\"aschel, Robert Kirk
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14074v1

摘要

arXiv:2502.14074v1 评估类型: 新颖 摘要:基于大语言模型(LLMs)的自动评估方法正在成为评估LLM基础代理遵循指令能力的标准工具。在这个范式中最常见的方法,以基本模型为基准的成对比较,关键依赖于传递偏好假设。然而,这个假设的有效性仍然没有得到充分的研究。在这项研究中,我们调查了AlpacaEval框架内的非传递性,并分析了其对模型排名的影响。我们发现,LLM评审员表现出非传递性的偏好,导致排名对基本模型的选择高度敏感。为了解决这一问题,我们展示了结合布雷德利-特里模型的循环淘汰赛可以产生更可靠的排名。值得注意的是,我们的方法分别将Spearman相关性和肯德尔相关性与ChatbotArena提高了(从95.0%增加到96.4%,从82.1%增加到86.3%)。为了解决循环淘汰赛的计算成本问题,我们提出了智者循环匹配赛(Swim)淘汰赛,通过动态匹配策略捕捉循环淘汰赛的优点,同时保持计算效率。