LLM2D

摘要

高效的视频分词仍然是训练能够处理长视频的视觉模型的一大挑战。一个很有前景的方向是开发一种能够编码长视频片段的分词器，因为它能够更好地利用视频的时间连贯性进行分词。然而，在长视频上训练现有的分词器往往会产生巨大的训练成本，因为它们被训练成一次性重建所有帧。在本文中，我们介绍了CoordTok，这是一种视频分词器，它学习从基于坐标的表示到输入视频相应补丁的映射，其灵感来自最近 3D 生成模型的进展。特别是，CoordTok 将视频编码为分解的三平面表示，并重建对应于随机采样的 (x,y,t) 坐标的补丁。这允许直接在长视频上训练大型分词器模型，而无需过多的训练资源。我们的实验表明，CoordTok 可以大幅减少编码长视频片段所需的标记数量。例如，CoordTok 可以将 128 帧、分辨率为 128×128 的视频编码为 1280 个标记，而基线则需要 6144 或 8192 个标记才能达到类似的重建质量。我们进一步表明，这种高效的视频分词能够实现内存高效的扩散变换器训练，该变换器可以一次生成 128 帧。