LLM2D

摘要

arXiv:2502.14074v1 评估类型: 新颖摘要：基于大语言模型（LLMs）的自动评估方法正在成为评估LLM基础代理遵循指令能力的标准工具。在这个范式中最常见的方法，以基本模型为基准的成对比较，关键依赖于传递偏好假设。然而，这个假设的有效性仍然没有得到充分的研究。在这项研究中，我们调查了AlpacaEval框架内的非传递性，并分析了其对模型排名的影响。我们发现，LLM评审员表现出非传递性的偏好，导致排名对基本模型的选择高度敏感。为了解决这一问题，我们展示了结合布雷德利-特里模型的循环淘汰赛可以产生更可靠的排名。值得注意的是，我们的方法分别将Spearman相关性和肯德尔相关性与ChatbotArena提高了（从95.0%增加到96.4%，从82.1%增加到86.3%）。为了解决循环淘汰赛的计算成本问题，我们提出了智者循环匹配赛（Swim）淘汰赛，通过动态匹配策略捕捉循环淘汰赛的优点，同时保持计算效率。