LLM2D

摘要

强化学习 (RL) 在现实世界决策中具有巨大潜力，但它也面临许多独特的难题，这些难题往往需要特别考虑。特别是：它高度非平稳；存在高度可塑性损失；需要探索以防止过早收敛到局部最优并最大化回报。本文探讨了学习优化是否能够帮助克服这些问题。我们的方法，即用于可塑性、探索和非平稳性的学习优化 (OPEN)，元学习了一个更新规则，其输入特征和输出结构借鉴了先前针对这些难题提出的解决方案。我们证明了我们的参数化足够灵活，能够在不同的学习环境中实现元学习，包括利用随机性进行探索的能力。我们的实验表明，当在单个和小型环境集上进行元训练时，OPEN 的性能优于或等于传统使用的优化器。此外，OPEN 在各种环境和智能体架构中都表现出强大的泛化特性。