摘要
先前研究发现,超人类围棋 AI 可以被简单的对抗策略击败,尤其是“循环”攻击。本文研究在围棋中添加自然防御措施是否能实现鲁棒性,围棋是一个有利于鲁棒性的领域,因为它受益于令人难以置信的平均情况能力和狭窄的、天生对抗性的环境。我们测试了三种防御措施:对抗训练,使用手工构建的位置,迭代对抗训练,以及改变网络架构。我们发现,尽管其中一些防御措施可以抵御先前发现的攻击,但没有一种能抵御新训练的对手。此外,这些对手发现的大多数可靠有效的攻击都是同一类循环攻击的不同实现方式。我们的结果表明,即使在一些最易处理的环境中,使用超人类系统构建鲁棒的 AI 系统也具有挑战性,并突出了两个关键差距:防御措施的有效泛化,以及训练的多样性。有关攻击的交互式示例和我们代码库的链接,请访问 https://goattack.far.ai。