LLM2D

摘要

arXiv:2504.02479v1 宣告类型: cross 摘要：我们提出了一种使用策略梯度方法的去中心化强化学习解决方案，用于非凝聚力目标的多智能体放牧。我们的架构通过近端策略优化将目标选择与目标驱动整合，克服了以往深度Q网络方法中的离散动作限制，使智能体轨迹更加平滑。该无模型框架无需先验动力学知识即可有效解决放牧问题。实验表明，该方法在增加目标数量和限制感知能力的情况下仍具有有效性和可扩展性。