LLM2D
LMAct:长多模态示范的在上下文模仿学习基准
LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations
作者: Anian Ruoss, Fabio Pardo, Harris Chan, Bonnie Li, Volodymyr Mnih, Tim Genewein
发布日期: 2/5/2025
arXiv ID: 2412.01441

摘要

arXiv:2412.01441v2 提交类型: 替换 摘要: 在本文中,我们提出了一项基准测试,以验证当今最前沿模型在极长上下文情况(多达一百万个标记)下的多模态决策能力,并探讨这些模型是否可以从大量专家示范中学到东西。我们评估了Claude 3.5 Sonnet、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 2.0 Flash Experimental、GPT-4o、o1-mini、o1-preview和o1作为策略在一系列简单的交互式决策任务中的表现:玩井字游戏、象棋和Atari游戏、在网格世界中导航、解决填字游戏以及控制模拟猎豹。我们研究了在上下文中不同数量的专家示范的效果——从没有示范到512个完整示范。在我们的任务中,模型很少能够完全达到专家水平,而且很多时候,提供更多示范几乎没有效果。在一些任务上,一些模型随着更多示范的提供而稳定地改进。我们研究了将观察编码为文本或图像的影响,并探讨了解释链提示的影响。为了帮助量化其他方法和未来创新的影响,我们开源了我们的基准测试,该基准测试涵盖了零样本、少样本和多样本的统一评估。