LLM2D
HERMES:基于情节和语义的时间一致性长格式理解
HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2408.17443v2

摘要

现有研究通常将长视频视为扩展的短视频,导致几个局限性:未能充分捕捉长程依赖关系,处理冗余信息效率低下,以及无法提取高级语义概念。为解决这些问题,我们提出了一种更准确反映人类认知的新方法。本文介绍了HERMES:基于情节和语义的时间一致长视频理解模型,该模型模拟情节记忆积累以捕捉动作序列,并通过分散在视频中的语义知识对其进行强化。我们的工作有两个关键贡献:首先,我们开发了一种情节压缩器(ECO),能够从微观到半宏观层面高效聚合关键表征,克服长程依赖的挑战。其次,我们提出了一种语义检索器(SeTR),通过聚焦于更广泛的上下文,增强这些聚合表征的语义信息,显著降低特征维度同时保留相关宏观级信息。这解决了冗余和缺乏高级概念提取的问题。大量实验表明,HERMES在多个长视频理解基准测试中,无论是在零样本还是全监督设置下,均达到了最先进的性能。