摘要
arXiv:2504.04675v1 通告类型: 新
摘要: 我们研究了学习用于遵循由超性质指定的复杂任务的控制策略的问题。使用超性质的原因在于它们在正式指定多智能体系统的要求以及需要在多个执行轨迹中表达性的要求(例如隐私和公平性)方面表现出极大的能力。给定一个具有未知转换的马尔可夫决策过程 \(M\)(代表环境)和一个超线性时逻辑(HyperLTL)公式 \(\varphi\),我们的方法首先使用斯科莱姆化来处理 \(\varphi\) 中的量词交替。我们引入了针对 \(\varphi\) 的 HyperLTL 的定量鲁棒性函数,用于定义 \(M\) 的有限轨迹的奖励。最后,我们利用适当的强化学习算法来学习 (1) \(\varphi\) 中每个轨迹量词的策略,以及 (2) \(M\) 的转换的概率分布,这些策略能够最大化预期奖励,从而最大化 \(\varphi\) 在 \(M\) 中得到满足的概率。我们介绍了关于 (1) 保持安全的多智能体路径规划,(2) 资源分配中的公平性,以及 (3) 预对应问题 (PCP) 的一系列案例研究。