LLM2D
Home
Arxiv
返回列表
非线性偏好下的多目标强化学习:最大化期望标量化回报的可证明近似
Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return
作者:
Nianli Peng, Muhang Tian, Brandon Fain
发布日期:
9/27/2024
arXiv ID:
oai:arXiv.org:2311.02544v3
摘要
我们研究了具有轨迹非线性偏好的多目标强化学习。也就是说,我们在多目标马尔可夫决策过程 (MOMDP) 中最大化累积奖励的非线性函数的期望值(预期标量化回报或 ESR)。我们推导出非线性优化的贝尔曼最优性扩展形式,该形式明确考虑了时间和当前累积奖励。利用这种公式,我们描述了一种近似算法,该算法可在伪多项式时间内为具有恒定数量奖励的平滑标量化函数计算近似最优非平稳策略。我们通过分析证明了近似值,并通过实验演示了该算法,表明通过我们的算法计算出的最优策略与替代基线之间可能存在很大差距。
查看原文
下载 PDF