LLM2D

摘要

大型语言模型（LLMs）凭借其**上下文学习**能力在许多自然语言处理任务中取代了传统方法，该能力使它们能够通过少量相关演示来快速适应下游文本任务。虽然最近开发了大型视觉语言模型（VLMs）来处理需要文本和图像的任务，但它们在视觉信息的上下文学习方面普遍缺乏，特别是在理解和生成有关视频的文本方面。在这项工作中，我们实现了**E**mergent **I**n-context **Le**arning on **V**ideos（\eilev{}），这是一种新颖的训练范式，通过捕捉先前工作发现的预训练数据中对 Transformer 中上下文学习至关重要的关键属性，在视频和文本上诱导上下文学习。在我们的实验中，我们表明，在新的、罕见的动作方面，经过 \eilev{} 训练的模型在少样本视频叙述方面优于其他现成的 VLMs。此外，我们证明了这些关键属性，即突发分布、偏斜边缘分布和动态含义，分别在不同程度上促成了 VLMs 在叙述过程视频方面的上下文学习能力。我们的结果、分析和 \eilev{} 训练的模型为视频和文本上的上下文学习的出现提供了许多见解，为未来工作优化和扩展 VLMs 以用于开放域视频理解和推理奠定了基础。我们的代码和演示可在 \url{https://github.com/yukw777/EILEV} 获取。