摘要
arXiv:2404.16468v2 通知类型: 替换-交叉
摘要: 模型无关的强化学习方法缺乏内在机制来对训练后的策略施加行为约束。虽然存在某些扩展方法,但它们主要针对特定类型的约束,例如带有额外奖励信号的价值约束或访问密度约束。在本文中,我们统一了这些现有技术,并利用一个通用的原始对偶框架将基于价值和演员-评论家的强化学习方法与经典优化和控制理论衔接起来。获得的对偶形式化表示对施加在学习策略上的额外约束特别有用,因为揭示了一种原始问题(或原始约束)中的奖励修改与对偶约束(或正则化项)之间的内在关系。此外,使用这个框架,我们能够引入一些新颖的约束类型,允许对策略的动作密度施加上下界或对连续状态和动作过渡成本的约束。根据调整后的原始对偶优化问题,我们推导出一种具有实际可行性的算法,该算法支持各种策略约束组合,并在训练过程中通过可训练的奖励修改自动处理。所提出的DualCRL方法在两个可解释的环境中进行详细研究和评估,结果突显了该方法的有效性,最终为这类系统的设计师提供了一个多功能的策略约束工具箱。