LLM2D

摘要

arXiv:2502.11134v1 宣告类型: 新摘要: 在天文学观测领域，确定望远镜阵列的观测资源分配和规划突发目标（ToOs）的后续观测是天文学科学发现不可或缺的组成部分。由于在线观测设置以及可能影响观测能否进行的时间变化因素众多，这个问题具有很高的计算难度。本文提出了ROARS，一种用于在线天文学资源受限调度的强化学习方法。为了捕捉天文学观测调度的结构，我们将每一份调度表示为有向无环图（DAG），展示了调度中不同观测任务之间的时间依赖关系。深度强化学习被用来学习一个迭代本地重写以逐步提高可行解的策略，直到收敛。由于众多的空间和时间约束导致的高计算复杂性，该方法可以解决从零开始直接获得完整解决方案的挑战。我们基于真实场景开发了一个仿真环境来进行实验，以评估我们提出的调度方法的有效性。实验结果表明，ROARS 超过了5种流行的启发式方法，能够适应各种观测场景，并且能够通过后见之明学习有效的策略。