LLM2D
学习优化能否降低强化学习的难度?
Can Learned Optimization Make Reinforcement Learning Less Difficult?
作者: Alexander David Goldie, Chris Lu, Matthew Thomas Jackson, Shimon Whiteson, Jakob Nicolaus Foerster
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2407.07082v2

摘要

强化学习 (RL) 在现实世界决策中具有巨大潜力,但它也面临许多独特的难题,这些难题往往需要特别考虑。特别是:它高度非平稳;存在高度可塑性损失;需要探索以防止过早收敛到局部最优并最大化回报。本文探讨了学习优化是否能够帮助克服这些问题。我们的方法,即用于可塑性、探索和非平稳性的学习优化 (OPEN),元学习了一个更新规则,其输入特征和输出结构借鉴了先前针对这些难题提出的解决方案。我们证明了我们的参数化足够灵活,能够在不同的学习环境中实现元学习,包括利用随机性进行探索的能力。我们的实验表明,当在单个和小型环境集上进行元训练时,OPEN 的性能优于或等于传统使用的优化器。此外,OPEN 在各种环境和智能体架构中都表现出强大的泛化特性。