LLM2D

摘要

arXiv:2409.09169v2 公告类型: 替换-交叉摘要: 稳健的策略使强化学习智能体能够有效适应并操作于不可预测、动态且不断变化的现实世界环境。分解表示法将复杂的状态和动作空间分解为不同的组成部分，可以提高策略学习中的泛化能力和样本效率。本文探讨了使用分解状态表示的智能体的课程如何影响所学策略的稳健性。我们通过实验展示了三种简单的课程，例如仅在不同情节之间改变最高遗憾的变量，这些课程可以显著增强策略的稳健性，为复杂环境中的强化学习提供了实用见解。