摘要
这项研究旨在全面探索构建用于自我中心视频理解的多模态基础模型。为此,我们从三个方面开展工作。首先,由于缺乏用于自我中心视频理解的问答数据,我们开发了一个数据引擎,该引擎基于人工标注数据,高效地生成了700万个高质量的自我中心视频问答样本,视频时长从30秒到一小时不等,这是目前最大的自我中心问答数据集。其次,我们贡献了一个具有挑战性的自我中心问答基准,包含629个视频和7026个问题,用于评估模型在识别和记忆不同长度视频中视觉细节的能力。我们引入了一种新的去偏置评估方法,以帮助减轻被评估模型中不可避免的语言偏差。第三,我们提出了一种专门的多模态架构,其特点是采用了一种新颖的“记忆指针提示”机制。该设计包括一个全局浏览步骤,以获得对整个视频的整体理解并识别关键视觉信息,然后是一个回退步骤,利用关键视觉信息生成响应。这使得模型能够更有效地理解扩展的视频内容。利用数据、基准和模型,我们成功构建了MM-Ego,这是一个自我中心多模态大型语言模型,在自我中心视频理解方面表现出强大的性能。