LLM2D

摘要

蒙特卡洛树搜索（MCTS）是一种用于解决复杂决策问题的强大算法。本文提出了一种应用于 FrozenLake 环境的优化 MCTS 实现，该环境是一个经典的强化学习任务，其特点是随机转换。该优化利用累积奖励和访问计数表以及树的置信上限（UCT）公式，从而在光滑网格世界中实现高效学习。我们将我们的实现与其他决策算法（包括具有策略和 Q 学习的 MCTS）进行基准测试，并对其性能进行了详细比较。结果表明，我们的优化方法有效地最大化了奖励和成功率，同时最小化了收敛时间，优于基线方法，尤其是在具有固有随机性的环境中。