摘要
本研究提出了一种将掩蔽近端策略优化 (PPO) 算法(来自深度强化学习 (RL) 领域)应用于确定最有效空间碎片访问顺序的新方法,并利用 Izzo 对拉姆伯特求解器的改进来实现单个交会。目标是优化访问所有给定碎片的顺序,以使整个任务的交会总时间最短。开发了一个神经网络 (NN) 策略,并在具有不同碎片场的模拟太空任务中进行训练。训练后,神经网络使用 Izzo 对拉姆伯特机动的改进来计算近似最优路径。性能评估了任务规划中的标准启发式方法。强化学习方法通过优化碎片交会顺序,显著提高了规划效率,与遗传算法和贪婪算法相比,总任务时间分别平均减少了 {10.96%} 和 {13.66%}。该模型平均在各种模拟场景中确定了最节省时间的碎片访问顺序,并具有最快的计算速度。这种方法标志着空间碎片清除任务规划策略的重大进步。