摘要
arXiv:2504.17213v2 通告类型: 替换-交叉
摘要:即使在大型模型迅速发展的时代,视频理解仍然是一个极其具有挑战性的任务。与文本或图像相比,视频通常包含更多带有冗余信息的数据,需要大型模型在整体层面适当分配注意力,以实现全面而准确的理解。为了解决这一问题,我们提出了一种基于多模态层次注意力聚焦自我反思推理(MASR)框架,用于代理驱动的视频理解。这项关键技术创新在于该框架能够检测和优先处理与查询高度相关的视频片段。首先,MASR 实现了多模态粗细相关性感知(MCRS),增强了获取到的上下文信息与查询之间的相关性。其次,MASR 使用扩展时域扩张(DTE)来减轻从通过MCRS 选定的关键帧中提取语义信息时遗漏关键细节的风险。通过在自我反思推理过程中迭代应用MCRS 和 DTE,MASR 能够自适应调整注意力,提取高度相关于查询的上下文,从而提高响应准确性。在 EgoSchema 数据集中,MASR 较之前领先的方法取得了显著的 5% 性能提升。在 Next-QA 和 IntentQA 数据集中,它分别优于最先进的标准 0.2% 和 0.3%。在包含长期视频的 Video-MME 数据集中,MASR 也比其他基于代理的方法表现更好。