摘要
arXiv:2502.14074v1 评估类型: 新颖
摘要:基于大语言模型(LLMs)的自动评估方法正在成为评估LLM基础代理遵循指令能力的标准工具。在这个范式中最常见的方法,以基本模型为基准的成对比较,关键依赖于传递偏好假设。然而,这个假设的有效性仍然没有得到充分的研究。在这项研究中,我们调查了AlpacaEval框架内的非传递性,并分析了其对模型排名的影响。我们发现,LLM评审员表现出非传递性的偏好,导致排名对基本模型的选择高度敏感。为了解决这一问题,我们展示了结合布雷德利-特里模型的循环淘汰赛可以产生更可靠的排名。值得注意的是,我们的方法分别将Spearman相关性和肯德尔相关性与ChatbotArena提高了(从95.0%增加到96.4%,从82.1%增加到86.3%)。为了解决循环淘汰赛的计算成本问题,我们提出了智者循环匹配赛(Swim)淘汰赛,通过动态匹配策略捕捉循环淘汰赛的优点,同时保持计算效率。