LLM2D

摘要

arXiv:2407.00902v3 宣告类型: replace-cross 摘要：受大型语言模型（LLMs）的上下文学习（ICL）能力的启发，当提供多个图像-文本对作为演示时，具备额外视觉模态的多模态LLMs也展示了类似的ICL能力。然而，关于多模态ICL背后的工作原理及其为何有效的工作却相对较少。我们对不同规模的模型在一系列新的关键任务上进行了系统的和原则上的多模态ICL评估。通过不同模态信息的扰动，我们展示了在多模态ICL中，模态在不同任务中的重要性是不同的。根据任务特定的模态影响，我们推荐以模态为导向的演示策略来增强ICL性能。我们还发现，即使模型在预训练数据中很少见到或与先验语义偏见相矛盾，它们也可能遵循多模态ICL的归纳偏差。我们的原则分析提供了一种全面理解多模态上下文学习中演示作用的方法，并为广泛的任务中有效提高多模态ICL提供了启示。