摘要
预告片是推广娱乐、商业和教育领域内容的有效工具。然而,为长视频创建有效的预告片具有挑战性,因为它需要对输入视频进行长距离多模态建模,同时需要保持视听对齐、管理场景变化并保持输出预告片的真实性。由于缺乏公开可用的数据集,这一研究方向的进展受到了阻碍。在这项工作中,我们提出了 DocumentaryNet,一个包含 1269 部纪录片及其预告片的集合,其中包含视频、语音、音乐、音效和旁白的多种数据流。利用 DocumentaryNet,我们提出了一种新的两阶段系统,用于从长纪录片中生成预告片。提出的 TeaserGen 系统首先使用预训练的大型语言模型从纪录片的转录旁白中生成预告片旁白,然后通过语言-视觉模型选择与生成的旁白最相关的视觉内容。对于旁白-视频匹配,我们探索了两种方法:一种基于预训练的模型,使用预训练的对比语言-视觉模型,以及一种深度序列模型,该模型学习旁白和视觉之间的映射。我们的实验结果表明,基于预训练的方法在识别相关视觉内容方面比直接训练的深度自回归模型更有效。