LLM2D
幻影:通过跨模态对齐实现的主体一致视频生成
Phantom: Subject-consistent video generation via cross-modal alignment
作者: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Gen Li, Siyu Zhou, Qian He, Xinglong Wu
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2502.11079v2

摘要

arXiv:2502.11079v2 宣布类型: replace-cross 摘要:基础模型在视频生成方面的持续发展正在演变出各种应用,而主题一致的视频生成仍处于探索阶段。我们将此称为“主题到视频”,该过程从参考图像中提取主题元素,并根据文本指令生成主题一致的视频。我们认为,主题到视频的核心在于平衡文本和图像的双模态提示,从而深刻而同步地对齐文本和视觉内容。为此,我们提出了Phantom,这是一个统一的视频生成框架,支持单主题和多主题参考。基于现有的文本到视频和图像到视频架构,我们重新设计了联合文本-图像注入模型,并通过文本-图像-视频三元组数据驱动其学习跨模态对齐。所提出的方法实现了高保真的主题一致视频生成,同时解决了图像内容泄露和多主题混淆的问题。评价结果显示,我们的方法在与其他先进的闭源商用解决方案相比时表现更优。特别是,我们在人类生成中强调主题一致性,涵盖了现有的ID保持视频生成,同时提供了增强的优势。