LLM2D

摘要

arXiv:2503.16980v2 宣布类型: replace-cross 摘要：基于标记的视频表示已成为使大型语言模型（LLMs）能够解释视频内容的有前途的方法。然而，现有的标记削减方法，如标记修剪和标记合并，往往会破坏重要的空间-时间位置嵌入，无法在减少标记数量的同时充分平衡计算效率。因此，这些方法导致了繁琐的标记序列，限制了它们在需要极端标记压缩场景（如视频大型语言模型）中的应用。在本文中，我们提出了极端短标记削减这一新任务，旨在用最少的标记来表示大量的视频序列。为了解决这一挑战，我们提出了标记动态新视频表示框架，该框架能够动态减少标记数量同时保持空间-时间一致性。具体来说，我们通过对视觉嵌入和网格级别运动信息进行分离，将视频表示结构化为：1. 一个紧凑的标记哈希表，通过聚类描述对象级内容的标记创建；2. 一个标记索引键图，捕捉网格间详细的空间-时间运动模式；3. 一个标记哈希函数，将标记哈希表矢量化以从键图重构标记序列。此外，我们引入了一种跨动态注意机制，该机制能够在不增加标记长度的情况下将运动特征集成到标记基础中，从而保持紧凑性和空间-时间完整性。实验结果显示，标记数量减少了原始标记的0.07%，性能下降仅1.13%。此外，我们提出了极端标记削减中的两个新子任务（固定长度和自适应长度压缩）。我们的方法提供了显著更低的理论复杂度、更少的标记和增强的吞吐量，因此为视频LLMs提供了高效的解决方案。