LLM2D
Elo评分可靠吗?在模型错定情况下的研究
Is Elo Rating Reliable? A Study Under Model Misspecification
作者: Shange Tang, Yuanhao Wang, Chi Jin
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10985v1

摘要

arXiv:2502.10985v1 交叉公告类型:交叉 摘要:广泛应用于从竞技游戏到大型语言模型等多个领域的Elo评分,通常被认为是一个递增更新算法,用于估算一个稳态Bradley-Terry (BT) 模型。然而,我们对实际匹配数据集的经验分析揭示了两个令人惊讶的发现:(1)大多数游戏严重偏离BT模型和稳态的假设,这引发了对Elo可靠性的质疑。(2)尽管存在这些偏差,Elo仍然经常优于更复杂的评分系统,如mElo和对偶模型,这些系统专门设计用于考虑数据中的非BT组成部分,特别是在胜率预测方面。本文通过三个关键视角解释了这种意想不到的现象:(a)我们将Elo重新解释为在线梯度下降的一个实例,在错定和非稳态设置下也能提供无悔保证。(b)通过在来自传递但非BT模型(如强或弱递传递模型)的数据生成的广泛合成实验中展示,我们表明“实际匹配数据的稀疏性”是Elo在预测中优于更复杂评分系统的关键因素。(c)我们发现Elo的预测准确性和其排名性能之间存在强烈相关性,进一步支持了其在排名方面的有效性。