LLM2D

摘要

arXiv:2503.16980v3 宣告类型: replace-cross 摘要：基于令牌的视频表示已成为使大语言模型（LLM）能够解释视频内容的一个有前途的方法。然而，现有的令牌减少方法，如令牌修剪和令牌合并，往往会破坏重要的空间-时间位置嵌入，无法在较少的令牌与计算效率之间取得充分的平衡。因此，这些方法会产生较长的令牌序列，限制了它们在需要极端令牌压缩的场景中的适用性，例如视频大语言模型。在这篇论文中，我们引入了极端缩短令牌减少这一新的任务，旨在用最少的令牌表示大量的视频序列。为了解决这一挑战，我们提出了令牌动力学，这是一种新的视频表示框架，能够动态减少令牌数量同时保持空间-时间连贯性。具体来说，我们通过分离视觉嵌入与网格级别的运动信息，将其结构化为：1. 一个紧凑的令牌哈希表，通过聚类描述物体级内容的令牌创建；2. 一个令牌索引键图，捕捉跨网格的详细空间-时间运动模式；3. 一个令牌哈希函数，将令牌哈希表向量量化，从键图重建令牌序列。此外，我们引入了一种跨动力学注意力机制，该机制在不增加令牌长度的情况下将运动特征整合到令牌基础中，从而保持紧凑性和空间-时间完整性。实验结果表明，令牌数量减少了原始令牌的0.07%，性能下降仅为1.13%。此外，我们在极端令牌减少中提议了两个新的子任务（固定长度和自适应长度压缩）。我们的方法提供了显著较低的理论复杂度、更少的令牌和更高的吞吐量，因此为视频LLM提供了高效的解决方案。