LLM2D

摘要

现有研究通常将长视频视为扩展的短视频，导致几个局限性：未能充分捕捉长程依赖关系，处理冗余信息效率低下，以及无法提取高级语义概念。为解决这些问题，我们提出了一种更准确反映人类认知的新方法。本文介绍了HERMES：基于情节和语义的时间一致长视频理解模型，该模型模拟情节记忆积累以捕捉动作序列，并通过分散在视频中的语义知识对其进行强化。我们的工作有两个关键贡献：首先，我们开发了一种情节压缩器（ECO），能够从微观到半宏观层面高效聚合关键表征，克服长程依赖的挑战。其次，我们提出了一种语义检索器（SeTR），通过聚焦于更广泛的上下文，增强这些聚合表征的语义信息，显著降低特征维度同时保留相关宏观级信息。这解决了冗余和缺乏高级概念提取的问题。大量实验表明，HERMES在多个长视频理解基准测试中，无论是在零样本还是全监督设置下，均达到了最先进的性能。