摘要
arXiv:2412.01316v2 宣布类型: 替换交叉
摘要:我们引入了Presto,一种新颖的视频扩散模型,旨在生成具有长程连贯性和丰富内容的15秒视频。将视频生成方法扩展到长时间内维持场景多样性面临着显著的挑战。为了解决这个问题,我们提出了分段交叉注意力(SCA)策略,该策略沿时间维度将隐藏状态分割成段,允许每个段对相应的子字幕进行交叉注意。SCA不需要额外的参数,能够无缝集成到当前的DiT架构中。为了促进高质量长视频的生成,我们构建了LongTake-HD数据集,包含261,000个内容丰富的视频,并具有场景连贯性,其中每个视频附带一个整体视频字幕和五个递进的子字幕。实验结果表明,我们的Presto在VBench语义得分上达到了78.5%,在动态程度上达到了100%,优于现有的最先进的视频生成方法。这表明我们提出的方法显著增强了内容丰富性、保持了长程连贯性并捕捉到了复杂的文本细节。更多信息请参阅我们的项目页面:https://presto-video.github.io/。