LLM2D

摘要

许多决策问题包含多个目标，而我们往往无法事先了解人类或代理决策者对于不同目标的偏好。然而，决策者的行为表现通常是可获得的。本研究提出了一种基于动态权重的偏好推断 (DWPI) 算法，该算法可以从演示中推断出在多目标决策问题中行动的代理的偏好。该算法在三个多目标马尔可夫决策过程中进行了评估：深海宝藏、交通和物品收集，并与两种现有的偏好推断算法进行了比较。实证结果表明，与基线算法相比，该算法在时间效率和推断精度方面都有显著提高。DWPI 算法在推断次优演示的偏好时也能保持其性能。此外，DWPI 算法在推断过程中不需要与用户进行任何交互——只需要演示即可。我们提供了该算法的正确性证明和复杂性分析，并对不同演示表示下的性能进行了统计评估。