LLM2D

摘要

本文研究了可能发生代理丢失的多智能体马尔可夫决策过程（MDP），以及基于丢失前系统的控制和采样计算丢失后系统的策略。中央规划者的目标是找到一个最优策略，在预先知道代理丢失概率的情况下最大化预期系统的价值。对于具有某种转移独立性和奖励可分离结构的MDP，我们假设从系统中移除代理会形成一个由剩余代理组成的新MDP，其状态和动作空间、转移动态都忽略了移除的代理，并且奖励与移除的代理无关。我们首先表明，在这些假设下，预期丢失后系统的价值可以用单一的MDP表示；这种"鲁棒MDP"消除了评估系统所有$2^N$种实现的需要，其中N表示代理数量。更重要的是，在无模型的情况下，表明鲁棒MDP的价值可以通过丢失前系统生成的样本估计，这意味着可以在丢失发生前找到鲁棒策略。这一事实被用来提出一种策略重要性采样（IS）程序，该程序在控制现有系统的同时对丢失场景进行策略评估。策略IS程序生成鲁棒MDP和具体丢失后系统实现的价值估计，并通过指数置信区间进行验证。最后，通过仿真验证了这种方法的实用性，展示了代理丢失的结构特性如何帮助控制器在丢失发生前找到好的丢失后策略。