LLM2D

摘要

arXiv:2412.11761v2 公告类型: 修改摘要: 大型语言模型（LLMs）在各种任务中展现了出色的性能。它们在促进人类与众多代理的合作方面的潜力是充满希望但尚未充分探索的领域。这种能力在灾难响应、城市规划和实时策略场景中将非常有用。在本文中，我们介绍（1）一个实时策略游戏基准测试，旨在评估这些能力，以及（2）一种我们称为HIVE的新框架。HIVE通过与LLM的自然语言对话，使单个人类能够协调多达2,000个代理的合作。我们在这个多代理基准测试中展示了令人鼓舞的结果，我们的混合方法解决了协调代理移动、利用单位弱点、利用人类注释、理解和规划地形及战略点等方面的问题。我们的研究结果还突显了当前模型的关键限制，包括处理空间视觉信息的困难以及制定长期战略计划的挑战。本研究揭示了LLM在人类-代理群协调方面的潜力和限制，为该领域的未来研究开辟了道路。HIVE项目页面，hive.syrkis.com，包括系统运行的视频。