LLM2D

摘要

城市环境中无人机数量的不断增加，需要制定策略来最大程度地减少其对环境的影响，包括能源效率和降噪。为了减少这些问题，需要开发新的策略，例如通过深度强化学习 (DRL) 来开发预测模型和优化飞行计划。我们的目标是开发能够使无人机在城市环境中自主导航的 DRL 算法，同时考虑到建筑物和其他无人机，优化轨迹以减少能量消耗和噪音。这可以通过使用流体流动模拟来实现，模拟无人机导航的环境，并训练无人机作为与城市环境交互的代理。在这项工作中，我们考虑了一个由二维流场和障碍物（理想情况下代表建筑物）组成的域，这些障碍物是从三维高保真数值模拟中提取的。所提出的方法使用 PPO+LSTM 单元，通过再现导航中一个简单但基本的问题（即泽尔梅洛问题）来验证，该问题处理在湍流中航行的船舶，从起点到目标位置，优化轨迹。目前的方法在简单 PPO 和 TD3 算法方面都有显著改进，PPO+LSTM 训练策略的成功率 (SR) 为 98.7%，碰撞率 (CR) 为 0.1%，优于 PPO (SR = 75.6%，CR=18.6%) 和 TD3 (SR=77.4% 和 CR=14.5%)。这是 DRL 策略迈出的第一步，该策略将使用实时信号在三维流场中引导无人机，使导航在飞行时间方面高效，并避免对车辆造成损坏。