LLM2D
从多目标强化学习演示中推断偏好
Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning
作者: Junlin Lu, Patrick Mannion, Karl Mason
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20258v1

摘要

许多决策问题包含多个目标,而我们往往无法事先了解人类或代理决策者对于不同目标的偏好。然而,决策者的行为表现通常是可获得的。本研究提出了一种基于动态权重的偏好推断 (DWPI) 算法,该算法可以从演示中推断出在多目标决策问题中行动的代理的偏好。该算法在三个多目标马尔可夫决策过程中进行了评估:深海宝藏、交通和物品收集,并与两种现有的偏好推断算法进行了比较。实证结果表明,与基线算法相比,该算法在时间效率和推断精度方面都有显著提高。DWPI 算法在推断次优演示的偏好时也能保持其性能。此外,DWPI 算法在推断过程中不需要与用户进行任何交互——只需要演示即可。我们提供了该算法的正确性证明和复杂性分析,并对不同演示表示下的性能进行了统计评估。