LLM2D
从算法到实际挑战的强化学习综合调查
A Comprehensive Survey of Reinforcement Learning: From Algorithms to Practical Challenges
作者: Majid Ghasemi, Amir Hossein Moosavi, Dariush Ebrahimi
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2411.18892v2

摘要

arXiv:2411.18892v2 更新通知类型: 替换 摘要:强化学习(RL)已成为人工智能(AI)中的一个强大范式,使代理能够在与环境互动过程中学习最优行为。从试错的基础出发,RL 使代理能够通过奖励或惩罚形式的反馈做出知情决策。本文对 RL 进行了全面综述,详细分析了从基础的表格方法到先进的深度强化学习(DRL)技术的广泛算法。我们根据关键标准如可扩展性、样本效率和适用性对这些算法进行分类和评估。我们通过比较这些方法在各种环境中的优势和劣势来进行对比。此外,我们还提供了选择和实施 RL 算法的实际见解,解决了常见的挑战,例如收敛性、稳定性以及探索与利用的权衡问题。本文为追求充分利用 RL 解决复杂现实世界问题的研究人员和实践者提供了一个全面的参考。