LLM2D
重访空间任务规划:一种强化学习引导的多碎片会合方法
Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous
作者: Agni Bandyopadhyay, Guenther Waxenegger-Wilfing
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16882v1

摘要

本研究提出了一种将掩蔽近端策略优化 (PPO) 算法(来自深度强化学习 (RL) 领域)应用于确定最有效空间碎片访问顺序的新方法,并利用 Izzo 对拉姆伯特求解器的改进来实现单个交会。目标是优化访问所有给定碎片的顺序,以使整个任务的交会总时间最短。开发了一个神经网络 (NN) 策略,并在具有不同碎片场的模拟太空任务中进行训练。训练后,神经网络使用 Izzo 对拉姆伯特机动的改进来计算近似最优路径。性能评估了任务规划中的标准启发式方法。强化学习方法通过优化碎片交会顺序,显著提高了规划效率,与遗传算法和贪婪算法相比,总任务时间分别平均减少了 {10.96%} 和 {13.66%}。该模型平均在各种模拟场景中确定了最节省时间的碎片访问顺序,并具有最快的计算速度。这种方法标志着空间碎片清除任务规划策略的重大进步。