摘要
蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的强大算法。本文提出了一种应用于 FrozenLake 环境的优化 MCTS 实现,该环境是一个经典的强化学习任务,其特点是随机转换。该优化利用累积奖励和访问计数表以及树的置信上限(UCT)公式,从而在光滑网格世界中实现高效学习。我们将我们的实现与其他决策算法(包括具有策略和 Q 学习的 MCTS)进行基准测试,并对其性能进行了详细比较。结果表明,我们的优化方法有效地最大化了奖励和成功率,同时最小化了收敛时间,优于基线方法,尤其是在具有固有随机性的环境中。