LLM2D
EAGLE:自我中心聚合语言-视频引擎
EAGLE: Egocentric AGgregated Language-video Engine
作者: Jing Bi, Yunlong Tang, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17523v1

摘要

以第一人称视角理解人类活动和意图的自我中心视频分析快速发展,带来了新的见解。尽管取得了进展,但动作识别、程序学习和时刻检索等任务的碎片化,以及不一致的标注和孤立的模型开发,阻碍了对视频内容的整体解读。为了应对这一挑战,我们引入了 EAGLE(自我中心聚合语言-视频引擎)模型和 EAGLE-400K 数据集,以提供一个统一的框架,整合各种自我中心视频理解任务。EAGLE-400K 是第一个针对自我中心视频的大规模指令微调数据集,它包含 400,000 个多样化的样本,以增强从活动识别到程序知识学习的广泛任务。此外,EAGLE 是一款强大的视频多模态大型语言模型 (MLLM),旨在有效地捕捉空间和时间信息。此外,我们还提出了一套评估指标,旨在促进对自我中心视频理解的 MLLM 进行全面评估。我们广泛的实验表明,EAGLE 的性能优于现有模型,突出了它在平衡特定任务理解和整体视频解读方面的能力。凭借 EAGLE,我们旨在为现实世界场景中的研究机会和实际应用铺平道路。