LLM2D
Token 动态:面向高效动态视频Token表示的视频大型语言模型
Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models
作者: Haichao Zhang, Yun Fu
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2503.16980v3

摘要

arXiv:2503.16980v3 宣告类型: replace-cross 摘要:基于令牌的视频表示已成为使大语言模型(LLM)能够解释视频内容的一个有前途的方法。然而,现有的令牌减少方法,如令牌修剪和令牌合并,往往会破坏重要的空间-时间位置嵌入,无法在较少的令牌与计算效率之间取得充分的平衡。因此,这些方法会产生较长的令牌序列,限制了它们在需要极端令牌压缩的场景中的适用性,例如视频大语言模型。在这篇论文中,我们引入了极端缩短令牌减少这一新的任务,旨在用最少的令牌表示大量的视频序列。为了解决这一挑战,我们提出了令牌动力学,这是一种新的视频表示框架,能够动态减少令牌数量同时保持空间-时间连贯性。具体来说,我们通过分离视觉嵌入与网格级别的运动信息,将其结构化为:1. 一个紧凑的令牌哈希表,通过聚类描述物体级内容的令牌创建;2. 一个令牌索引键图,捕捉跨网格的详细空间-时间运动模式;3. 一个令牌哈希函数,将令牌哈希表向量量化,从键图重建令牌序列。此外,我们引入了一种跨动力学注意力机制,该机制在不增加令牌长度的情况下将运动特征整合到令牌基础中,从而保持紧凑性和空间-时间完整性。实验结果表明,令牌数量减少了原始令牌的0.07%,性能下降仅为1.13%。此外,我们在极端令牌减少中提议了两个新的子任务(固定长度和自适应长度压缩)。我们的方法提供了显著较低的理论复杂度、更少的令牌和更高的吞吐量,因此为视频LLM提供了高效的解决方案。