LLM2D

摘要

arXiv:2312.02312v2 宣告类型: replace-cross 摘要：视频游戏一直作为决策社区有用的基准，但超越阿特اري游戏向现代游戏发展对绝大多数研究社区来说成本高昂。在现代视频游戏中，先前的工作通常依赖于游戏特定的集成来获取游戏功能并启用在线训练，或者依赖现有的大型数据集。另一种方法是使用模仿学习来训练智能体，仅仅从图像中玩视频游戏。然而，这种设置提出了一个根本性的问题：哪些视觉编码器能够获得保留对决策至关重要的信息的表示？为了回答这个问题，我们在Minecraft、Counter-Strike: Global Offensive和Minecraft Dungeons中，系统性地研究了使用公开可用的预训练视觉编码器进行模仿学习与典型的任务特定端到端训练方法的比较。我们的结果显示，即便使用低分辨率图像和仅几分钟的示范演示，端到端训练也可能是有效的，但通过利用预训练编码器如DINOv2可以实现显著的改进，这取决于游戏的不同。除了使有效的决策成为可能，我们还展示出，预训练编码器可以显著降低训练成本，从而使视频游戏中决策研究更具可访问性。