LLM2D
LMAct:一种基于长多模态示范的即兴模仿学习基准
LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations
作者: Anian Ruoss, Fabio Pardo, Harris Chan, Bonnie Li, Volodymyr Mnih, Tim Genewein
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2412.01441v2

摘要

arXiv:2412.01441v2 类型: 替换 摘要: 在本文中,我们提出了一项基准测试,用于在非常长的上下文域(多达一百万个词元)中测试当今前沿模型在多模态决策能力方面承受压力的能力,并调查这些模型是否可以从大量专家示范中学到东西。我们评估了Claude 3.5 Sonnet、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 2.0 Flash Experimental、GPT-4o、o1-mini、o1-preview 和 o1作为策略在一系列简单的互动决策任务中的表现:玩井字游戏、国际象棋和Atari游戏,导航网格世界,解决填字游戏,控制模拟猎豹。我们在上下文中研究了不同数量的专家示范的影响——从没有示范到512个完整回合。在我们的任务中,模型很少能完全达到专家水平,而且通常,提供更多示范几乎没有影响。在少数任务上,一些模型随着更多示范的提供稳步提高。我们研究了将观察编码为文本或图像的效果,以及思想链提示的影响。为了帮助量化其他方法和其他创新的影响,我们开源了涵盖零样本、少量样本和大量样本评估的基准测试。