LLM2D

摘要

arXiv:2502.03998v1 类型: cross 摘要：在竞争游戏中，如Elo这样的等级评定被广泛用于量化玩家技能并通过更好地考虑技能差异来支持匹配对手。然而，标量等级评定无法处理复杂交错关系，比如井字棋中的制胜策略。为了解决这个问题，最近的工作引入了神经等级表和神经制胜类别表，其将标量等级评定与离散的制胜类别结合来建模交错关系。尽管这有效，但这些方法依赖于神经网络的训练，无法进行实时更新。在本文中，我们提出了一种在线更新算法，其将Elo原则扩展以结合实时学习制胜类别。该方法在每次比赛后动态调整评分和制胜关系，保持标量评分的可解释性，同时解决了交错关系问题。实验在零和竞争游戏中展示了其实用性，特别是在没有复杂团队组合的情况下。