LLM2D

摘要

arXiv:2505.01966v1 交叉公告类型摘要：模块化可重构卫星指的是由能够改变其配置的个体模块单元组成的卫星集群。这些配置变化使得执行多种任务和使命目标成为可能。现有的重构路径规划算法通常面临高计算复杂性、 poor 一般化能力和对多样目标配置有限支持等问题。为解决这些挑战，本文提出了一种目标导向的基于强化学习的路径规划算法。该算法是首次克服了之前强化学习方法未能解决的挑战，即处理多种目标配置。此外，还引入了前瞻经验重放和无效动作屏蔽技术，以克服稀疏奖励和无效动作带来的重大障碍。基于这些设计，我们的模型在由四个和六个模块组成的模块化卫星集群中分别实现了达到任意目标配置的 95% 和 73% 的成功率。