LLM2D

摘要

arXiv:2503.20078v1 多代理强化学习类型：跨领域摘要：多代理强化学习（MARL）在动态和适应性强的合成角色训练中日益普遍，这些角色用于针对特定地理环境的交互式模拟。诸如Unity的ML-Agents框架有助于使此类强化学习实验更易为模拟社区所用。军事训练模拟也从MARL的进步中受益，但由于它们复杂、连续的、随机的、部分可观测的、非稳定的和依据教义的特点，它们具有巨大的计算需求。此外，这些模拟需要特定地理环境的地形，进一步加剧了计算资源的问题。在我们的研究中，我们利用Unity的航点自动生成多层表示抽象，以扩展强化学习的应用规模，同时仍允许在不同的表示之间转移已学习的策略。我们在一个新颖的MARL场景中进行的初步探索结果，其中每一方都有不同的目标，表明基于航点的导航能够更快更高效地学习，并生成与CSGO游戏环境中专家级玩家所采取的轨迹相似的轨迹。这项研究指出了在军事训练模拟中，其中特定地理环境和不同目标至关重要，基于航点的导航在降低开发和训练MARL模型的计算成本方面的潜在价值。