摘要
arXiv:2311.02544v4 宣告类型: replace-cross
摘要:我们研究了具有非线性轨迹偏好下的多目标强化学习。即,在多目标马尔可夫决策过程(MOMDP)中,我们最大化非线性函数在累积奖励上的期望值(期望标量化回报或ESR)。我们推导出一种非线性优化的扩展形式的贝尔曼最优性,该形式明确考虑了时间以及当前累积奖励。利用这一表述,我们描述了一种近似算法,在具有常数数量奖励的平滑标量化函数下,可以在伪多项式时间内计算近似最优的非稳态策略。我们从理论上证明了该近似方法,并通过实验展示了该算法,显示了我们的算法计算出的最优策略与其他基准方法之间可能存在较大的差距。