LLM2D

摘要

随着视觉生成技术的不断发展，视频数据集的规模迅速扩大，而这些数据集的质量对于视频生成模型的性能至关重要。我们认为，时间分割、详细的字幕和视频质量过滤是决定数据集质量的三个关键因素。然而，现有的数据集在这些方面存在着各种局限性。为了解决这些挑战，我们引入了 Koala-36M，这是一个大规模、高质量的视频数据集，它具有精确的时间分割、详细的字幕和优异的视频质量。我们方法的核心在于改善细粒度条件与视频内容之间的一致性。具体来说，我们采用概率分布上的线性分类器来提高过渡检测的准确性，确保更好的时间一致性。然后，我们为分割后的视频提供结构化的字幕，平均长度为 200 个词，以提高文本-视频对齐。此外，我们开发了一个视频训练适用性评分 (VTSS)，该评分整合了多个子指标，使我们能够从原始语料库中过滤出高质量的视频。最后，我们将几个指标纳入生成模型的训练过程，进一步细化了细粒度条件。我们的实验结果证明了我们数据处理管道的有效性和所提出的 Koala-36M 数据集的质量。我们的数据集和代码将在 https://koala36m.github.io/ 上发布。