摘要
尽管 AlphaZero 在围棋方面已达到超越人类的水平,但最近的研究表明,在需要对整个棋盘进行更全面理解的特定情况下,它存在弱点。为了解决这一挑战,本文介绍了 ResTNet,一个将残差网络和 Transformer 交织在一起的网络。我们的实证实验表明使用 ResTNet 的几个优势。首先,它不仅提高了棋力,还增强了全局信息的能力。其次,它能够防御针对 AlphaZero 算法量身定制的对手围棋程序——循环对抗,显著降低了被攻击的平均概率,从 70.44% 降至 23.91%。第三,它将正确识别梯子图案的准确率从 59.15% 提高到 80.01%,而梯子图案是围棋 AI 中的一种具有挑战性的图案。最后,ResTNet 提供了对决策过程的潜在解释,也可以应用于其他游戏,例如六角棋。据我们所知,ResTNet 是第一个在 AlphaZero 的背景下将残差网络和 Transformer 整合到棋盘游戏中的网络,这为增强 AlphaZero 的全局理解提供了有希望的方向。