摘要
随着视觉生成技术的不断发展,视频数据集的规模迅速扩大,而这些数据集的质量对于视频生成模型的性能至关重要。我们认为,时间分割、详细的字幕和视频质量过滤是决定数据集质量的三个关键因素。然而,现有的数据集在这些方面存在着各种局限性。为了解决这些挑战,我们引入了 Koala-36M,这是一个大规模、高质量的视频数据集,它具有精确的时间分割、详细的字幕和优异的视频质量。我们方法的核心在于改善细粒度条件与视频内容之间的一致性。具体来说,我们采用概率分布上的线性分类器来提高过渡检测的准确性,确保更好的时间一致性。然后,我们为分割后的视频提供结构化的字幕,平均长度为 200 个词,以提高文本-视频对齐。此外,我们开发了一个视频训练适用性评分 (VTSS),该评分整合了多个子指标,使我们能够从原始语料库中过滤出高质量的视频。最后,我们将几个指标纳入生成模型的训练过程,进一步细化了细粒度条件。我们的实验结果证明了我们数据处理管道的有效性和所提出的 Koala-36M 数据集的质量。我们的数据集和代码将在 https://koala36m.github.io/ 上发布。