LLM2D

摘要

尽管 AlphaZero 在围棋方面已达到超越人类的水平，但最近的研究表明，在需要对整个棋盘进行更全面理解的特定情况下，它存在弱点。为了解决这一挑战，本文介绍了 ResTNet，一个将残差网络和 Transformer 交织在一起的网络。我们的实证实验表明使用 ResTNet 的几个优势。首先，它不仅提高了棋力，还增强了全局信息的能力。其次，它能够防御针对 AlphaZero 算法量身定制的对手围棋程序——循环对抗，显著降低了被攻击的平均概率，从 70.44% 降至 23.91%。第三，它将正确识别梯子图案的准确率从 59.15% 提高到 80.01%，而梯子图案是围棋 AI 中的一种具有挑战性的图案。最后，ResTNet 提供了对决策过程的潜在解释，也可以应用于其他游戏，例如六角棋。据我们所知，ResTNet 是第一个在 AlphaZero 的背景下将残差网络和 Transformer 整合到棋盘游戏中的网络，这为增强 AlphaZero 的全局理解提供了有希望的方向。