摘要
arXiv:2411.14762v4 通知类型: replace-cross
摘要:在训练能够处理长视频的视觉模型时,高效的视频分词仍然是一个挑战。一个有希望的方向是开发一种能够编码长视频片段的分词器,因为它可以让分词器更好地利用视频的时序一致性来进行分词。然而,将现有的分词器训练在长视频上通常会带来巨大的训练成本,因为它们一次需要重构所有的帧。在本文中,我们介绍了一种名为CoordTok的视频分词器,它通过利用3D生成模型最近的发展,从基于坐标的表示学习到输入视频对应切片的映射。特别是,CoordTok将视频编码为因子化的三平面表示,并重构与随机采样的$(x, y, t)$坐标对应的切片。这使得可以直接从长视频训练大型分词器模型,而不需要过度的训练资源。我们的实验表明,CoordTok可以大幅减少编码长视频片段的令牌数量。例如,CoordTok可以将一个分辨率为128×128的128帧视频编码为1280个令牌,而基线方法需要6144或8192个令牌才能达到相似的重构质量。我们进一步展示了这种高效的视频分词使能够一次性生成128帧的扩散变压器的内存高效训练成为可能。