摘要
arXiv:2504.04675v2 公告类型: 替代
摘要: 我们研究了使用超性质学习复杂任务的控制策略的问题。使用超性质的原因在于它们在正式指定多智能体系统的要求以及涉及多个执行迹的表达性方面具有显著的能力(例如,隐私和公平性)。给定一个具有未知转移(表示环境)的马尔可夫决策过程M及一个HyerLTL公式φ,我们首先利用Skolem化来处理φ中的量词交替。我们为HyerLTL引入定量鲁棒性函数,以定义M的有限迹相对于φ的奖励。最后,我们利用一个合适的强化学习算法来学习(1)φ中每个迹量词的策略,以及(2)M的转移概率分布,这些分布共同最大化期望奖励,从而最大化M中φ满足的概率。我们提出了以下案例研究:(1)保持安全的多智能体路径规划,(2)资源分配中的公平性,以及(3)后对应问题(PCP)。