LLM2D

摘要

我们研究了具有轨迹非线性偏好的多目标强化学习。也就是说，我们在多目标马尔可夫决策过程 (MOMDP) 中最大化累积奖励的非线性函数的期望值（预期标量化回报或 ESR）。我们推导出非线性优化的贝尔曼最优性扩展形式，该形式明确考虑了时间和当前累积奖励。利用这种公式，我们描述了一种近似算法，该算法可在伪多项式时间内为具有恒定数量奖励的平滑标量化函数计算近似最优非平稳策略。我们通过分析证明了近似值，并通过实验演示了该算法，表明通过我们的算法计算出的最优策略与替代基线之间可能存在很大差距。