LLM2D

摘要

arXiv:2502.10985v1 交叉公告类型：交叉摘要：广泛应用于从竞技游戏到大型语言模型等多个领域的Elo评分，通常被认为是一个递增更新算法，用于估算一个稳态Bradley-Terry (BT) 模型。然而，我们对实际匹配数据集的经验分析揭示了两个令人惊讶的发现：（1）大多数游戏严重偏离BT模型和稳态的假设，这引发了对Elo可靠性的质疑。（2）尽管存在这些偏差，Elo仍然经常优于更复杂的评分系统，如mElo和对偶模型，这些系统专门设计用于考虑数据中的非BT组成部分，特别是在胜率预测方面。本文通过三个关键视角解释了这种意想不到的现象：（a）我们将Elo重新解释为在线梯度下降的一个实例，在错定和非稳态设置下也能提供无悔保证。（b）通过在来自传递但非BT模型（如强或弱递传递模型）的数据生成的广泛合成实验中展示，我们表明“实际匹配数据的稀疏性”是Elo在预测中优于更复杂评分系统的关键因素。（c）我们发现Elo的预测准确性和其排名性能之间存在强烈相关性，进一步支持了其在排名方面的有效性。