LLM2D

摘要

arXiv:2407.07082v3 宣告类型: replace-cross 摘要：尽管强化学习（RL）在现实世界的决策制定方面具有巨大的潜力，但它面临着许多独特的困难，通常需要特别考虑。特别是：它高度非稳态；遭受严重的可塑性损失；并且需要探索以防止过早收敛到局部最优并最大化回报。在这篇论文中，我们考虑了学习优化是否可以帮助克服这些问题。我们的方法，用于可塑性、探索和非稳态的学习优化（OPEN），元学习一个更新规则，其中输入特征和输出结构受到对这些困难之前提出的解决方案的启发。我们表明，我们的参数化足够灵活，可以在多种学习环境中实现元学习，包括使用随机性进行探索的能力。我们的实验表明，当以单个和小型环境集进行元训练时，OPEN在性能上超过或等于传统使用的优化器。此外，OPEN在不同环境和代理架构的广泛范围内显示出强大的泛化特性。