摘要
arXiv:2503.24379v1 Announce Type: cross
摘要:为了解决当前视频生成社区中准确理解用户意图的瓶颈,我们提出了Any2Caption,这是一种在任何条件下均可控制的视频生成新型框架。关键思想是将各种条件解释步骤与视频合成步骤分离。通过利用现代多模态大型语言模型(MLLMs),Any2Caption 将多种输入——文本、图像、视频以及如区域、运动和相机姿态等专业提示——解释为稠密且结构化的字幕,为骨干视频生成器提供更好的指导。我们还引入了Any2CapIns,这是一个大规模数据集,包含337,000个实例和407,000个条件,用于任何条件到字幕指令调优。全面的评估表明,我们的系统在各种方面均能显著提高现有视频生成模型的可控性和视频质量。项目页面:https://sqwu.top/Any2Cap/