摘要
国际象棋长期以来一直是人工智能追求匹配人类智能的试验场,近年来,国际象棋人工智能系统已经超越了该游戏中最强大的棋手。然而,这些系统并非与人类一致;它们无法匹配所有人类合作伙伴的技能水平,也无法模拟超出棋子移动的人类行为。在本文中,我们介绍了 Allie,一个旨在弥合这种经典游戏中人工智能与人类智能之间差距的国际象棋 AI。Allie 训练于真实国际象棋游戏的日志序列,以模拟从低到高各个技能水平的人类国际象棋棋手的行为,包括非移动行为,如思考时间和认输。在离线评估中,我们发现 Allie 表现出类似人类的行为:它在人类国际象棋走棋预测和关键位置的“思考”方面优于现有技术水平。该模型学会在每个游戏状态可靠地分配奖励,这可以在推理中用作新型时间自适应蒙特卡洛树搜索 (MCTS) 过程中的奖励函数,其中搜索量取决于人类在相同位置的思考时间。自适应搜索使非凡的技能校准成为可能;在一个针对 Elo 等级从 1000 到 2600 的棋手的大规模在线评估中,我们的自适应搜索方法平均导致 49 Elo 的技能差距,大大优于无搜索和标准 MCTS 基线。面对大师级(2500 Elo)对手,Allie 采用自适应搜索表现出与大师相当的实力,同时只从人类学习。