LLM2D

摘要

以第一人称视角理解人类活动和意图的自我中心视频分析快速发展，带来了新的见解。尽管取得了进展，但动作识别、程序学习和时刻检索等任务的碎片化，以及不一致的标注和孤立的模型开发，阻碍了对视频内容的整体解读。为了应对这一挑战，我们引入了 EAGLE（自我中心聚合语言-视频引擎）模型和 EAGLE-400K 数据集，以提供一个统一的框架，整合各种自我中心视频理解任务。EAGLE-400K 是第一个针对自我中心视频的大规模指令微调数据集，它包含 400,000 个多样化的样本，以增强从活动识别到程序知识学习的广泛任务。此外，EAGLE 是一款强大的视频多模态大型语言模型 (MLLM)，旨在有效地捕捉空间和时间信息。此外，我们还提出了一套评估指标，旨在促进对自我中心视频理解的 MLLM 进行全面评估。我们广泛的实验表明，EAGLE 的性能优于现有模型，突出了它在平衡特定任务理解和整体视频解读方面的能力。凭借 EAGLE，我们旨在为现实世界场景中的研究机会和实际应用铺平道路。