摘要
arXiv:2502.10062v1 宣告类型:交叉
摘要:本文解决了在不了解机器人转换模型的情况下多机器人协调的问题,确保由时间窗口时空逻辑指定的任务以用户定义的概率阈值得到满足。我们提出了一种双层框架,该框架包括(i)高层任务分配,根据机器人估计的任务完成概率和预期奖励分配任务,以及(ii)低层分布式策略学习与执行,机器人独立优化辅助奖励同时完成分配的任务。为了处理机器人动力学的不确定性,我们的方法利用实时任务执行数据迭代地细化预期的任务完成概率和奖励,从而使任务分配具有自适应性,无需显式机器人转换模型。我们从理论上验证了所提出的算法,证明了任务分配以高信心度满足了期望的概率阈值。最后,通过全面的仿真演示了我们框架的有效性。