LLM2D
长视频扩散生成与分段交叉注意力及内容丰富的视频数据整理
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
作者: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2412.01316v2

摘要

arXiv:2412.01316v2 宣布类型: 替换交叉 摘要:我们引入了Presto,一种新颖的视频扩散模型,旨在生成具有长程连贯性和丰富内容的15秒视频。将视频生成方法扩展到长时间内维持场景多样性面临着显著的挑战。为了解决这个问题,我们提出了分段交叉注意力(SCA)策略,该策略沿时间维度将隐藏状态分割成段,允许每个段对相应的子字幕进行交叉注意。SCA不需要额外的参数,能够无缝集成到当前的DiT架构中。为了促进高质量长视频的生成,我们构建了LongTake-HD数据集,包含261,000个内容丰富的视频,并具有场景连贯性,其中每个视频附带一个整体视频字幕和五个递进的子字幕。实验结果表明,我们的Presto在VBench语义得分上达到了78.5%,在动态程度上达到了100%,优于现有的最先进的视频生成方法。这表明我们提出的方法显著增强了内容丰富性、保持了长程连贯性并捕捉到了复杂的文本细节。更多信息请参阅我们的项目页面:https://presto-video.github.io/。