LLM2D

摘要

arXiv:2502.10476v1 宣告类型: 新摘要: 自主代理经常需要在多种具有基于上下文变化的偏好排序的目标中进行规划。代理在其操作过程中可能会遇到多种上下文，每种上下文都施加了一种独特的字母顺序目标排序，每个上下文可能还与不同的奖赏函数相关联。现有的多目标规划方法通常在整个状态空间中考虑目标的单一偏好排序，并不支持在环境中进行多种目标排序的规划。我们提出了上下文字母顺序马尔可夫决策过程（Contextual Lexicographic Markov Decision Process, CLMDP），一个框架，使代理能够在不同的上下文中根据不同的字母顺序目标排序进行规划。在CLMDP中，一个状态下的目标排序和相关的奖赏函数都由上下文决定。我们使用贝叶斯方法从专家轨迹中推断状态-上下文映射。我们解决CLMDP算法首先为每个目标排序计算一个策略，然后将它们组合成一个上下文感知的有效且无环的策略。所提方法的有效性在仿真和使用移动机器人的情况下进行了评估。