LLM2D

摘要

arXiv:2409.12889v1 公告类型: 新提交摘要: 近期，基于大型语言模型（LLM）的智能体在多个领域取得了显著进展。其中，最受欢迎的研究领域之一是将这些智能体应用于电子游戏。传统上，这些方法依赖于游戏API来获取游戏内的环境和动作数据。然而，这种方法受限于API的可用性，并且无法反映人类玩游戏的方式。随着视觉语言模型（VLM）的出现，智能体现在具备了增强的视觉理解能力，能够仅通过视觉输入与游戏互动。尽管取得了这些进展，当前的方法在面向动作的任务中仍面临挑战，特别是在动作角色扮演游戏（ARPG）中，强化学习方法虽然普遍但存在泛化能力差和需要大量训练的问题。为了解决这些限制，我们选择了一款ARPG游戏“黑神话：悟空”作为研究平台，探索现有VLM在仅依赖视觉输入和复杂动作输出的场景中的能力边界。我们在游戏中定义了12个任务，其中75%专注于战斗，并将几种最先进的VLM纳入这一基准测试中。此外，我们将发布一个人类操作数据集，包含录制的游戏视频和操作日志，包括鼠标和键盘动作。此外，我们提出了一种新的VARP（视觉动作角色扮演）智能体框架，由动作规划系统和视觉轨迹系统组成。我们的框架展示了执行基本任务的能力，并在90%的简单和中等难度战斗场景中取得成功。本研究旨在为在复杂动作游戏环境中应用多模态智能体提供新的见解和方向。代码和数据集将在https://varp-agent.github.io/上提供。