LLM2D

摘要

arXiv:2502.10429v1 声明类型: cross 摘要：本文介绍了CRL2RT算法，这是一种先进的强化学习方法，旨在提高直接驱动串联翼实验平台（DDTWEP）的实时控制性能。受蜻蜓飞行的启发，DDTWEP的串联翼结构导致了非线性和非稳态的气动相互作用，在俯仰、滚转和偏航操作过程中产生了复杂的载荷行为。这些复杂性给高频率（2000 Hz）下的稳定运动控制带来了挑战。为了克服这些问题，我们开发了CRL2RT算法，该算法通过时间交织架构和基于规则的策略组合器，结合了传统控制元素和基于强化学习的控制器。这种集成确保了有限时间收敛和单实例适应性。在不同条件下进行的实验结果显示，在标准CPU上，CRL2RT实现了超过2500 Hz的控制频率。此外，当与PID、自适应PID和模型参考自适应控制（MRAC）等传统控制器结合使用时，CRL2RT的跟踪性能提高了18.3%到60.7%。这些发现不仅证明了CRL2RT在复杂实时控制场景中的广泛适用性和优越性能，而且验证了其在克服现有控制策略局限性、提高生物仿生空中车辆鲁棒性和高效性方面的有效性。