LLM2D

摘要

本文提出了一种安全调制演员-评论家 (SMAC) 方法，以解决无模型安全强化学习 (RL) 中的安全约束和过估计缓解问题。开发了一种安全调制器，通过调制动作来满足安全约束，允许策略忽略安全约束并专注于最大化奖励。此外，还提出了一种具有 SMAC 理论更新规则的分布式评论家，以减轻具有安全约束的 Q 值过估计。在无人机 (UAV) 悬停的仿真和现实世界场景实验中，SMAC 均能有效地维护安全约束，并优于主流基线算法。