LLM2D

摘要

arXiv:2504.15425v1 声明类型: cross 摘要：多机器人系统中的任务通常需要机器人协作并完成团队目标同时保持安全。这个问题通常被形式化为约束马尔可夫决策过程（CMDP），其目标是最小化全局成本并将约束违反的平均值保持在用户定义的阈值以下。受现实世界机器人应用的启发，我们将安全定义为零约束违反。尽管已经提出了许多安全多智能体强化学习（MARL）算法来解决CMDP，但这些算法在该设置下面临训练不稳定的问题。为解决这一问题，我们使用约束优化的epigraph形式来提高训练稳定性，并证明集中式的epigraph形式问题可以通过每个代理以分布式方式求解。这产生了一种名为Def-MARL的新型集中式训练分布式执行MARL算法。在两个不同模拟器上的八个不同任务的仿真实验表明，Def-MARL实现了最佳的整体性能，满足安全约束，并保持了训练的稳定性。在 Crazyflie 四旋翼无人机上的真实硬件实验表明，与其它方法相比，Def-MARL具有安全协调代理完成复杂协作任务的能力。