摘要
现有研究通常将长视频视为扩展的短视频,导致几个局限性:未能充分捕捉长程依赖关系,处理冗余信息效率低下,以及无法提取高级语义概念。为解决这些问题,我们提出了一种更准确反映人类认知的新方法。本文介绍了HERMES:基于情节和语义的时间一致长视频理解模型,该模型模拟情节记忆积累以捕捉动作序列,并通过分散在视频中的语义知识对其进行强化。我们的工作有两个关键贡献:首先,我们开发了一种情节压缩器(ECO),能够从微观到半宏观层面高效聚合关键表征,克服长程依赖的挑战。其次,我们提出了一种语义检索器(SeTR),通过聚焦于更广泛的上下文,增强这些聚合表征的语义信息,显著降低特征维度同时保留相关宏观级信息。这解决了冗余和缺乏高级概念提取的问题。大量实验表明,HERMES在多个长视频理解基准测试中,无论是在零样本还是全监督设置下,均达到了最先进的性能。