LLM2D

摘要

arXiv:2501.18490v2 课程类型: 替换交叉摘要：本文介绍了一种基于课程学习的方法，以开发一个满足预定义性能标准的基于强化学习的鲁棒稳定控制器，用于四旋翼无人机。学习目标是在从随机初始条件出发的同时，实现所需的位置，同时遵守瞬态和稳态性能规范。由于位置和姿态动力学之间的强烈耦合、奖励函数的设计和调整复杂性，以及样本效率低等因素，这使得传统的端到端一阶段强化学习方法面临挑战。这些因素需要大量的计算资源，并导致收敛时间延长。为了解决这些挑战，本文将学习目标分解为三个阶段的课程，逐步增加任务的复杂性。课程从学习从固定初始条件实现稳定悬停开始，随后逐渐引入初始位置、姿态和速度的随机化。提出了一种新颖的加性奖励函数，以融入瞬态和稳态性能规范。结果表明，基于 proximal 策略优化（PPO）的课程学习方法，辅以所提出的奖励结构，与使用相同奖励函数的一阶段 PPO 训练策略相比，能够实现更优性能，同时显著降低计算资源需求和收敛时间。通过对随机初始条件和存在干扰情况下的训练策略的性能和鲁棒性进行了全面验证。