摘要
arXiv:2503.10822v2 公告类型:替换
摘要:已经在计算机中表示象棋棋盘的技术存在多种方法。本文的第一部分解释了位板表示法的概念以及旋转位板在生成 move 操作中的优势。为了具体说明这些想法,我们讨论了 FUSc# 中 move 生成器的实现,并解释了如何使用“perft”命令验证 move 生成器的方法。我们展示了 FUSc# 的 move 生成器完全正确。
文章的第二部分讨论了计算机象棋中的强化学习(以及更广泛的领域)。通过将 2002-2008 年 FUSc# 发展时期的“最新技术”与最近与“AlphaZero”相关的创新进行比较,我们展示了在过去 15-20 年中该领域取得的进步。我们讨论了如何实现一个 FUSc#-Zero,并讨论减少达到良好性能所需训练游戏数量所需要的条件。这可以被视为提高强化学习中“样本效率”的普遍问题的一个测试案例。
在最后一部分中,我们超越了计算机象棋,因为样本效率的重要性远远超出了棋盘游戏,扩展到了数据获取成本高、难以获得或生成时间长的一系列应用领域。我们回顾了 AlphaZero 在其他领域中发展的想法的应用,即“其他 Alpha”如 AlphaFold、AlphaTensor、AlphaGeometry 和 AlphaProof。我们还讨论了未来研究以及此类方法在生态经济发展规划中的潜力。