LLM2D

摘要

arXiv:2504.15876v1 对抗类型: 交叉摘要：在群机器人技术中，包括战略对抗在内的对抗场景需要有效的决策机制，该机制需要将离散命令和连续动作结合起来。传统的任务和运动规划方法将决策划分为两层，但其单向结构无法捕捉这两层之间的相互依赖关系，从而限制了在动态环境中的适应性。在这项工作中，我们提出了一种基于层次强化学习的全新双向方法，可以动态地在两层之间实现交互。该方法有效地将命令映射到任务分配，并将动作映射到路径规划，同时利用跨训练技术来增强层次框架中的学习效果。此外，我们引入了一个轨迹预测模型，将抽象的任务表示与可执行的规划目标联系起来。在我们的实验中，该方法的对抗胜率超过80%，决策时间小于0.01秒，优于现有方法。大规模测试和真实的机器人实验演示进一步强调了我们方法的一般化能力和实际适用性。