LLM2D

摘要

arXiv:2503.24284v1 宣传类型: 横跨领域摘要: 当前的欺骗性路径规划（DPP）方法解决了设计能够从被动外部观察者处隐藏其真实目标的路径的问题。这些方法不适用于观察者能够执行对抗性干预以阻碍路径规划代理的情况。在本文中，我们提出了在对抗性干预下解决DPP问题的一种新的基于马尔可夫决策过程（MDP）的模型，并开发了新的信息价值（VoI）目标来指导DPP策略的设计。利用我们提出的VoI目标，路径规划代理通过选择对观察者具有低信息价值的轨迹，使对抗性观察者选择次优干预措施。通过利用MDP线性规划理论的连接，我们推导出了计算效率高的合成在对抗性干预下执行DPP的策略的方法。在我们的实验中，我们展示了所提出的方法在对抗性干预下实现欺骗性的有效性，并证明了我们在具有说明性网格世界的测试问题上，与现有DPP方法和保守的路径规划方法相比，我们的方法具有更好的性能。