摘要
arXiv:2504.02221v1 Announce Type: cross
摘要:提出了一种新颖的学习方法,结合了在线和离线方法的特点,在利用并行超级计算机的处理能力的过程中实现了在学习跳棋价值函数任务中的显著性能。离线方法包括一组用于并行化神经网络训练和$TD(\lambda)$强化学习的技术;在此基础上,引入了大规模并行的在线策略改进技术——蒙特卡洛“展开”(Rollouts),它将资源应用于搜索游戏树过程中遇到的决策点,进一步增强了学习的价值函数估计。在短短的学习期内,达到了与当前冠军级人类和计算机跳棋玩家大致相当的水平,甚至可能更好。