LLM2D

摘要

arXiv:2505.08995v1 通告类型: 新颖摘要: 本文提出了一种层次化的多智能体强化学习框架，用于分析涉及异构智能体的模拟空中作战场景。目标是在预设的模拟中识别有效的行动方案，从而在低成本和安全的环境中探索现实世界中的防御场景。在此背景下应用深度强化学习提出了特定的挑战，例如复杂的飞行动力学、多智能体系统中状态和动作空间的指数级大小，以及将个体单位的实时控制与前瞻规划相结合的能力。为了解决这些挑战，决策过程被分成两个抽象层次：低层次策略控制个体单位，而高层次指挥策略发布与整体任务目标相一致的宏观命令。这种层次结构通过利用个体智能体的策略对称性并分离控制任务和命令任务来简化训练过程。低层次策略在逐渐增加复杂性的课程中对个体战斗控制进行训练。然后，在给定预训练控制策略的情况下，高层次指挥官对任务目标进行训练。实证验证确认了所提框架的优点。