LLM2D

摘要

大型语言模型在少量样本上下文学习（ICL）方面表现出色。多模态基础模型的最新进展使得上下文窗口长度前所未有地增加，为探索其在更多演示示例下进行 ICL 的能力提供了机会。在这项工作中，我们评估了从少量样本到多样本 ICL 的多模态基础模型的性能。我们在 14 个涵盖多个领域（自然图像、医疗图像、遥感和分子图像）和任务（图像分类、视觉问答和目标定位）的数据集上对 GPT-4o 和 Gemini 1.5 Pro 进行了基准测试。我们观察到，多样本 ICL（包括高达近 2000 个演示示例）与少量样本（<100 个示例）ICL 相比，在所有数据集上都带来了显著的改进。此外，Gemini 1.5 Pro 的性能在许多数据集上一直呈对数线性增长，直到测试示例的最大数量。我们还发现像 Llama 3.2-Vision 这样的开放权重多模态基础模型无法从演示示例中获益，这突出了开放和封闭多模态基础模型之间重要的差距。鉴于多样本 ICL 需要高昂的推理成本，我们还探讨了在单个 API 调用中批处理多个查询的影响。我们表明，在零样本和多样本 ICL 下，批处理多达 50 个查询可以提高性能，在多个数据集的零样本设置下取得了显著的收益，同时大幅降低了每个查询的成本和延迟。最后，虽然 GPT-4o 和 Gemini 1.5 Pro 在各个数据集上实现了相似的零样本性能，但在大多数数据集上，Gemini 1.5 Pro 的学习速度比 GPT-4o 更快。我们的结果表明，多样本 ICL 可以使用户高效地将多模态基础模型适应新的应用和领域。我们的代码库在 https://github.com/stanfordmlgroup/ManyICL 上公开提供。