LLM2D

摘要

arXiv:2012.10700v2 公告类型：替换摘要：深度强化学习在许多完全信息游戏中达到了超人类的水平。具有零知识学习的最新算法是AlphaZero。我们采用了另一种方法，Athéenan，它使用了不同的、基于Minimax的搜索算法Descent，以及不同的学习目标，并且不使用策略。我们展示了Athéenan在多个游戏中比Polygames（AlphaZero的重新实现）更高效。即使Polygames使用100倍更多的GPU资源（至少对于某些游戏），Athéenan仍然具有竞争力。Athéenan性能更优的一个关键因素是，生成用于训练的状态数据的成本大约低296倍。在相同合理的资源条件下，不使用强化启发式的Athéenan至少比Polygames快7倍，而使用强化启发式时，则比Polygames快超过30倍。