LLM2D

摘要

最近，基于大语言模型（LLM）的代理在多个领域取得了显著进展。其中一个最受欢迎的研究领域是将这些代理应用于视频游戏。传统上，这些方法依赖于游戏API来访问游戏中的环境和动作数据。然而，这种方法受限于API的可用性，并不能反映人类玩游戏的方式。随着视觉语言模型（VLMs）的出现，代理现在具有增强的视觉理解能力，使其能够仅通过视觉输入与游戏互动。尽管取得了这些进展，当前的方法在面向动作的任务中仍面临挑战，特别是在动作角色扮演游戏（ARPGs）中，强化学习方法虽然流行，但存在泛化能力差且需要大量训练的问题。为了解决这些限制，我们选择了一款ARPG游戏《黑神话：悟空》作为研究平台，以探索现有VLMs在需要视觉输入和复杂动作输出的场景中的能力边界。我们在游戏中定义了12项任务，其中75%集中在战斗上，并将几种最先进的VLMs整合到这一基准中。此外，我们将发布包含录制的游戏视频和操作日志（包括鼠标和键盘操作）的人工操作数据集。此外，我们提出了一种新的VARP（视觉动作角色扮演）代理框架，由一个动作规划系统和一个视觉轨迹系统组成。我们的框架展示了完成基本任务的能力，并在90%的简单和中等难度的战斗场景中取得成功。本研究旨在为在复杂动作游戏环境中应用多模态代理提供新的见解和方向。代码和数据集将发布在https://varp-agent.github.io/。