摘要
arXiv:2410.07177v2 通告类型: 替换-交叉
摘要: 本研究旨在全面探讨构建自视点视频理解的多模态基础模型。为实现这一目标,我们在三个领域进行工作。首先,由于缺乏自视点视频理解的问答数据,我们基于人类标注的数据,在Ego4D上自动生成了从30秒到一小时不等长度的自视点视频的700万个高质量问答样本。这是迄今为止最大的自视点问答数据集之一。其次,我们贡献了一个具有629个视频和7026个问题的具有挑战性的自视点问答基准,用于评估模型在识别和记忆不同长度视频中视觉细节方面的能力。我们引入了一种新的去偏差评估方法,以帮助缓解在被评估模型中不可避免的语言偏差。第三,我们提出了一种专门的多模态架构,其中包括一种新颖的“记忆指针提示”机制。该设计包括一个全局概览步骤,以获得整个视频的总体理解并识别关键视觉信息,随后是利用关键视觉信息生成响应的回退步骤。这使模型能够更有效地理解扩展视频内容。凭借数据、基准和模型,我们构建了MM-Ego,一个在自视点视频理解方面表现出强大性能的自视点多模态大语言模型。