摘要
大型语言模型(LLMs)凭借其**上下文学习**能力在许多自然语言处理任务中取代了传统方法,该能力使它们能够通过少量相关演示来快速适应下游文本任务。虽然最近开发了大型视觉语言模型(VLMs)来处理需要文本和图像的任务,但它们在视觉信息的上下文学习方面普遍缺乏,特别是在理解和生成有关视频的文本方面。在这项工作中,我们实现了**E**mergent **I**n-context **Le**arning on **V**ideos(\eilev{}),这是一种新颖的训练范式,通过捕捉先前工作发现的预训练数据中对 Transformer 中上下文学习至关重要的关键属性,在视频和文本上诱导上下文学习。在我们的实验中,我们表明,在新的、罕见的动作方面,经过 \eilev{} 训练的模型在少样本视频叙述方面优于其他现成的 VLMs。此外,我们证明了这些关键属性,即突发分布、偏斜边缘分布和动态含义,分别在不同程度上促成了 VLMs 在叙述过程视频方面的上下文学习能力。我们的结果、分析和 \eilev{} 训练的模型为视频和文本上的上下文学习的出现提供了许多见解,为未来工作优化和扩展 VLMs 以用于开放域视频理解和推理奠定了基础。我们的代码和演示可在 \url{https://github.com/yukw777/EILEV} 获取。