LLM2D

摘要

arXiv:2411.14762v4 通知类型: replace-cross 摘要：在训练能够处理长视频的视觉模型时，高效的视频分词仍然是一个挑战。一个有希望的方向是开发一种能够编码长视频片段的分词器，因为它可以让分词器更好地利用视频的时序一致性来进行分词。然而，将现有的分词器训练在长视频上通常会带来巨大的训练成本，因为它们一次需要重构所有的帧。在本文中，我们介绍了一种名为CoordTok的视频分词器，它通过利用3D生成模型最近的发展，从基于坐标的表示学习到输入视频对应切片的映射。特别是，CoordTok将视频编码为因子化的三平面表示，并重构与随机采样的$(x, y, t)$坐标对应的切片。这使得可以直接从长视频训练大型分词器模型，而不需要过度的训练资源。我们的实验表明，CoordTok可以大幅减少编码长视频片段的令牌数量。例如，CoordTok可以将一个分辨率为128×128的128帧视频编码为1280个令牌，而基线方法需要6144或8192个令牌才能达到相似的重构质量。我们进一步展示了这种高效的视频分词使能够一次性生成128帧的扩散变压器的内存高效训练成为可能。