摘要
高效的视频分词仍然是训练能够处理长视频的视觉模型的一大挑战。一个很有前景的方向是开发一种能够编码长视频片段的分词器,因为它能够更好地利用视频的时间连贯性进行分词。然而,在长视频上训练现有的分词器往往会产生巨大的训练成本,因为它们被训练成一次性重建所有帧。在本文中,我们介绍了CoordTok,这是一种视频分词器,它学习从基于坐标的表示到输入视频相应补丁的映射,其灵感来自最近 3D 生成模型的进展。特别是,CoordTok 将视频编码为分解的三平面表示,并重建对应于随机采样的 (x,y,t) 坐标的补丁。这允许直接在长视频上训练大型分词器模型,而无需过多的训练资源。我们的实验表明,CoordTok 可以大幅减少编码长视频片段所需的标记数量。例如,CoordTok 可以将 128 帧、分辨率为 128×128 的视频编码为 1280 个标记,而基线则需要 6144 或 8192 个标记才能达到类似的重建质量。我们进一步表明,这种高效的视频分词能够实现内存高效的扩散变换器训练,该变换器可以一次生成 128 帧。