摘要
大型语言模型 (LLM) 近期取得成功的关键原因之一是它们的**上下文学习**能力,这使得可以通过少量相关演示来快速将其适应到下游文本任务。虽然最近已经开发出用于需要文本和图像的任务的大型视觉语言模型 (VLM),但它们在视觉信息上的上下文学习能力普遍不足,特别是在理解和生成关于视频的文本方面。在这项工作中,我们实现了**E**mergent **I**n-context **Le**arning on **V**ideos (\eilev{}),这是一种新颖的训练范式,通过捕捉先前工作发现的对于 Transformer 中上下文学习至关重要的预训练数据的关键属性,从而在视频和文本上诱导上下文学习。在我们的实验中,我们表明,经过 \eilev{} 训练的模型在针对新颖、罕见动作的少样本视频叙述方面,优于其他现成的 VLM。此外,我们证明了这些关键属性——突发分布、偏斜边缘分布和动态含义——都以不同程度地促进了 VLM 在叙述程序视频中的上下文学习能力。我们的结果、分析和经过 \eilev{} 训练的模型,为关于视频和文本上的上下文学习的涌现提供了许多见解,为未来的工作奠定了基础,以优化和扩展 VLM 以用于开放域视频理解和推理。我们的代码和演示可在 \url{https://github.com/yukw777/EILEV} 获取。