LLM2D

摘要

arXiv:2411.13543v2 宣告类型: 替换摘要: 大型语言模型（LLMs）和视觉语言模型（VLMs）拥有广泛的知识，并表现出令人满意的推理能力，然而，它们在复杂、动态环境中仍然难以表现出色。真实的任务要求处理复杂的交互、高级的空间推理、长期规划以及不断探索新策略等-在这些方面，我们缺乏有效的评估方法来全面评估这些能力。为了解决这一差距，我们引入了BALROG，这是一种新型基准，旨在通过一系列具有挑战性的游戏来评估LLMs和VLMs的智能代理能力。我们的基准集成了不同难度级别的现有强化学习环境，包括非专家人类在几秒钟内可以解决的任务，以及可能需要多年才能掌握的极其具有挑战性的任务（例如NetHack学习环境）。我们设计了细致的评估指标来衡量性能，并对多个流行的开源和封闭源LLMs和VLMs进行了广泛评估。我们的研究结果表明，当前模型在较简单的游戏中取得了一定的成功，但在更具挑战性的任务中却表现出了显著的困难。值得注意的是，我们观察到视觉决策的严重缺陷，因为当提供环境的视觉表示时，许多模型的表现更差。我们以开源和用户友好的方式发布了BALROG，以促进智能代理社区的未来研究与开发。代码和排行榜可在balrogai.com上找到。