摘要
arXiv:2410.08260v2 宣布类型: replace-cross
摘要:随着视觉生成技术的不断进步,视频数据集的规模呈指数增长。这些数据集的质量对视频生成模型的性能至关重要。我们认为,时间分割、详细的描述字幕和视频质量筛选是决定数据集质量的三个关键因素。然而,现有的数据集在这些方面存在各种局限性。为了解决这些问题,我们介绍了Koala-36M,一个大规模、高质量的视频数据集,该数据集具备准确的时间分割、详细的描述字幕和优异的视频质量。我们方法的核心在于提高细粒度条件与视频内容之间的一致性。具体来说,我们使用线性分类器在概率分布上进行操作,以提高过渡检测的准确性,确保更好的时间一致性。我们随后为分割后的视频提供结构化的字幕,平均长度为200个单词,以提高文本-视频对齐。此外,我们开发了一个视频训练适宜度评分(VTSS),该评分结合了多个子指标,使我们能够从原始语料库中筛选出高质量的视频。最后,我们将多个指标纳入生成模型的训练过程,进一步细化细粒度条件。我们的实验展示了我们数据处理流水线的有效性以及所提出的Koala-36M数据集的质量。我们的数据集和代码已在https://koala36m.github.io/上发布。