LLM2D

摘要

arXiv:2412.01441v2 提交类型: 替换摘要: 在本文中，我们提出了一项基准测试，以验证当今最前沿模型在极长上下文情况（多达一百万个标记）下的多模态决策能力，并探讨这些模型是否可以从大量专家示范中学到东西。我们评估了Claude 3.5 Sonnet、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 2.0 Flash Experimental、GPT-4o、o1-mini、o1-preview和o1作为策略在一系列简单的交互式决策任务中的表现：玩井字游戏、象棋和Atari游戏、在网格世界中导航、解决填字游戏以及控制模拟猎豹。我们研究了在上下文中不同数量的专家示范的效果——从没有示范到512个完整示范。在我们的任务中，模型很少能够完全达到专家水平，而且很多时候，提供更多示范几乎没有效果。在一些任务上，一些模型随着更多示范的提供而稳定地改进。我们研究了将观察编码为文本或图像的影响，并探讨了解释链提示的影响。为了帮助量化其他方法和未来创新的影响，我们开源了我们的基准测试，该基准测试涵盖了零样本、少样本和多样本的统一评估。