LLM2D

摘要

arXiv:2412.01441v2 类型: 替换摘要: 在本文中，我们提出了一项基准测试，用于在非常长的上下文域（多达一百万个词元）中测试当今前沿模型在多模态决策能力方面承受压力的能力，并调查这些模型是否可以从大量专家示范中学到东西。我们评估了Claude 3.5 Sonnet、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 2.0 Flash Experimental、GPT-4o、o1-mini、o1-preview 和 o1作为策略在一系列简单的互动决策任务中的表现：玩井字游戏、国际象棋和Atari游戏，导航网格世界，解决填字游戏，控制模拟猎豹。我们在上下文中研究了不同数量的专家示范的影响——从没有示范到512个完整回合。在我们的任务中，模型很少能完全达到专家水平，而且通常，提供更多示范几乎没有影响。在少数任务上，一些模型随着更多示范的提供稳步提高。我们研究了将观察编码为文本或图像的效果，以及思想链提示的影响。为了帮助量化其他方法和其他创新的影响，我们开源了涵盖零样本、少量样本和大量样本评估的基准测试。