LLM2D
模型无关安全强化学习中的安全调节Actor-Critic方法及其在无人机悬停中的应用
A Safety Modulator Actor-Critic Method in Model-Free Safe Reinforcement Learning and Application in UAV Hovering
作者: Qihan Qi, Xinsong Yang, Gang Xia, Daniel W. C. Ho, Pengyang Tang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06847v1

摘要

本文提出了一种安全调制演员-评论家 (SMAC) 方法,以解决无模型安全强化学习 (RL) 中的安全约束和过估计缓解问题。开发了一种安全调制器,通过调制动作来满足安全约束,允许策略忽略安全约束并专注于最大化奖励。此外,还提出了一种具有 SMAC 理论更新规则的分布式评论家,以减轻具有安全约束的 Q 值过估计。在无人机 (UAV) 悬停的仿真和现实世界场景实验中,SMAC 均能有效地维护安全约束,并优于主流基线算法。