摘要
arXiv:2412.12223v2 宣告类型: replace-cross
摘要:近期在文本生成视频(T2V)方面的进展利用了扩散模型来增强从文本描述合成的视频中的视觉连贯性。然而,现有研究主要集中在物体运动上,经常忽略了电影语言,这在电影制作中对于传达情感和叙事节奏至关重要。为了解决这个问题,我们提出了一种三阶段方法来提高T2V模型的电影控制能力。首先,我们引入了一个详细标注的电影语言数据集,包含二十个子类别,涵盖镜头构图、镜头角度和摄像机运动,使模型能够学习多种电影风格。其次,我们提出了CameraDiff,它利用LoRA实现精确和稳定的电影控制,确保灵活的镜头生成。第三,我们提出了CameraCLIP,旨在评估电影对齐和引导多镜头组成。基于CameraCLIP,我们引入了CLIPLoRA,这是一种由CLIP引导的动态LoRA组合方法,能够自适应地融合多个预训练电影LoRA,实现平滑过渡和无缝风格融合。实验结果表明,CameraDiff确保了稳定和精确的电影控制,CameraCLIP实现了0.83的R@1分数,并且CLIPLoRA显著提高了一视频内多镜头组成的性能,缩小了自动化视频生成与专业电影制作之间的差距。