LLM2D

摘要

arXiv:2410.08260v2 宣布类型: replace-cross 摘要：随着视觉生成技术的不断进步，视频数据集的规模呈指数增长。这些数据集的质量对视频生成模型的性能至关重要。我们认为，时间分割、详细的描述字幕和视频质量筛选是决定数据集质量的三个关键因素。然而，现有的数据集在这些方面存在各种局限性。为了解决这些问题，我们介绍了Koala-36M，一个大规模、高质量的视频数据集，该数据集具备准确的时间分割、详细的描述字幕和优异的视频质量。我们方法的核心在于提高细粒度条件与视频内容之间的一致性。具体来说，我们使用线性分类器在概率分布上进行操作，以提高过渡检测的准确性，确保更好的时间一致性。我们随后为分割后的视频提供结构化的字幕，平均长度为200个单词，以提高文本-视频对齐。此外，我们开发了一个视频训练适宜度评分（VTSS），该评分结合了多个子指标，使我们能够从原始语料库中筛选出高质量的视频。最后，我们将多个指标纳入生成模型的训练过程，进一步细化细粒度条件。我们的实验展示了我们数据处理流水线的有效性以及所提出的Koala-36M数据集的质量。我们的数据集和代码已在https://koala36m.github.io/上发布。