LLM2D
多模态基础模型中的少样本上下文学习
Many-Shot In-Context Learning in Multimodal Foundation Models
作者: Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2405.09798v2

摘要

大型语言模型在少量样本上下文学习(ICL)方面表现出色。多模态基础模型的最新进展使得上下文窗口长度前所未有地增加,为探索其在更多演示示例下进行 ICL 的能力提供了机会。在这项工作中,我们评估了从少量样本到多样本 ICL 的多模态基础模型的性能。我们在 14 个涵盖多个领域(自然图像、医疗图像、遥感和分子图像)和任务(图像分类、视觉问答和目标定位)的数据集上对 GPT-4o 和 Gemini 1.5 Pro 进行了基准测试。我们观察到,多样本 ICL(包括高达近 2000 个演示示例)与少量样本(<100 个示例)ICL 相比,在所有数据集上都带来了显著的改进。此外,Gemini 1.5 Pro 的性能在许多数据集上一直呈对数线性增长,直到测试示例的最大数量。我们还发现像 Llama 3.2-Vision 这样的开放权重多模态基础模型无法从演示示例中获益,这突出了开放和封闭多模态基础模型之间重要的差距。鉴于多样本 ICL 需要高昂的推理成本,我们还探讨了在单个 API 调用中批处理多个查询的影响。我们表明,在零样本和多样本 ICL 下,批处理多达 50 个查询可以提高性能,在多个数据集的零样本设置下取得了显著的收益,同时大幅降低了每个查询的成本和延迟。最后,虽然 GPT-4o 和 Gemini 1.5 Pro 在各个数据集上实现了相似的零样本性能,但在大多数数据集上,Gemini 1.5 Pro 的学习速度比 GPT-4o 更快。我们的结果表明,多样本 ICL 可以使用户高效地将多模态基础模型适应新的应用和领域。我们的代码库在 https://github.com/stanfordmlgroup/ManyICL 上公开提供。