LLM2D
BALROG: 评估代理型LLM和VLM在游戏中的推理能力
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games
作者: Davide Paglieri, Bart{\l}omiej Cupia{\l}, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, {\L}ukasz Kuci\'nski, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rockt\"aschel
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2411.13543v2

摘要

arXiv:2411.13543v2 宣告类型: 替换 摘要: 大型语言模型(LLMs)和视觉语言模型(VLMs)拥有广泛的知识,并表现出令人满意的推理能力,然而,它们在复杂、动态环境中仍然难以表现出色。真实的任务要求处理复杂的交互、高级的空间推理、长期规划以及不断探索新策略等-在这些方面,我们缺乏有效的评估方法来全面评估这些能力。为了解决这一差距,我们引入了BALROG,这是一种新型基准,旨在通过一系列具有挑战性的游戏来评估LLMs和VLMs的智能代理能力。我们的基准集成了不同难度级别的现有强化学习环境,包括非专家人类在几秒钟内可以解决的任务,以及可能需要多年才能掌握的极其具有挑战性的任务(例如NetHack学习环境)。我们设计了细致的评估指标来衡量性能,并对多个流行的开源和封闭源LLMs和VLMs进行了广泛评估。我们的研究结果表明,当前模型在较简单的游戏中取得了一定的成功,但在更具挑战性的任务中却表现出了显著的困难。值得注意的是,我们观察到视觉决策的严重缺陷,因为当提供环境的视觉表示时,许多模型的表现更差。我们以开源和用户友好的方式发布了BALROG,以促进智能代理社区的未来研究与开发。代码和排行榜可在balrogai.com上找到。