LLM2D

摘要

arXiv:2502.10431v1 Announce Type: cross 摘要：在许多强化学习（RL）应用中，确保智能体的动作遵守约束对于安全性至关重要。在动作约束强化学习（ACRL）的大多数先前方法中，都在策略网络之后使用投影层来校正动作。然而，基于投影的方法会遇到梯度消失问题，并且由于使用优化求解器而导致运行时间增加。最近提出了一种训练生成模型来学习从潜在变量到可行动作的可微映射的方法，以解决这个问题。然而，生成模型需要使用受限动作空间中的样本来进行训练，这本身具有挑战性。为了解决这些限制，首先，我们基于约束违反信号定义了可行动作的目标分布，并通过最小化可近似的动作分布与目标之间的KL散度来训练归一化流，从而消除了生成可行动作样本的需要，大大简化了流模型的学习。其次，我们将学习到的流模型与现有的深度RL方法集成，限制其仅探索可行动作空间。第三，我们将我们的方法扩展到ACRL之外，通过从环境中学习约束违反信号来处理状态约束。实验结果表明，与以前的最佳方法相比，我们的方法在多个控制任务中具有更少的约束违反情况，并且在质量上达到或超过了相似的水平。