LLM2D

摘要

arXiv:2412.01316v2 宣布类型: 替换交叉摘要：我们引入了Presto，一种新颖的视频扩散模型，旨在生成具有长程连贯性和丰富内容的15秒视频。将视频生成方法扩展到长时间内维持场景多样性面临着显著的挑战。为了解决这个问题，我们提出了分段交叉注意力（SCA）策略，该策略沿时间维度将隐藏状态分割成段，允许每个段对相应的子字幕进行交叉注意。SCA不需要额外的参数，能够无缝集成到当前的DiT架构中。为了促进高质量长视频的生成，我们构建了LongTake-HD数据集，包含261,000个内容丰富的视频，并具有场景连贯性，其中每个视频附带一个整体视频字幕和五个递进的子字幕。实验结果表明，我们的Presto在VBench语义得分上达到了78.5%，在动态程度上达到了100%，优于现有的最先进的视频生成方法。这表明我们提出的方法显著增强了内容丰富性、保持了长程连贯性并捕捉到了复杂的文本细节。更多信息请参阅我们的项目页面：https://presto-video.github.io/。