摘要
arXiv:2502.10429v1 声明类型: cross
摘要:本文介绍了CRL2RT算法,这是一种先进的强化学习方法,旨在提高直接驱动串联翼实验平台(DDTWEP)的实时控制性能。受蜻蜓飞行的启发,DDTWEP的串联翼结构导致了非线性和非稳态的气动相互作用,在俯仰、滚转和偏航操作过程中产生了复杂的载荷行为。这些复杂性给高频率(2000 Hz)下的稳定运动控制带来了挑战。为了克服这些问题,我们开发了CRL2RT算法,该算法通过时间交织架构和基于规则的策略组合器,结合了传统控制元素和基于强化学习的控制器。这种集成确保了有限时间收敛和单实例适应性。在不同条件下进行的实验结果显示,在标准CPU上,CRL2RT实现了超过2500 Hz的控制频率。此外,当与PID、自适应PID和模型参考自适应控制(MRAC)等传统控制器结合使用时,CRL2RT的跟踪性能提高了18.3%到60.7%。这些发现不仅证明了CRL2RT在复杂实时控制场景中的广泛适用性和优越性能,而且验证了其在克服现有控制策略局限性、提高生物仿生空中车辆鲁棒性和高效性方面的有效性。