LLM2D

摘要

arXiv:2502.11079v1 类型: cross 摘要：基础模型在视频生成方面的持续发展正在演变成各种应用，而主题一致的视频生成仍然处于探索阶段。我们将这种情况称为“主题到视频”，该方法从参考图像中提取主题元素，并通过文本指令生成主题一致的视频。我们相信，主题到视频的核心在于平衡文本和图像的双模态提示，从而深入且同时对齐文本和视觉内容。为此，我们提出了Phantom，这是一种统一的视频生成框架，适用于单主题和多主题参考。基于现有的文本到视频和图像到视频架构，我们重新设计了联合文本-图像注入模型，并通过文本-图像-视频三元组数据驱动其学习跨模态对齐。特别是在人类生成方面，我们强调主题一致性，涵盖了现有的身份保留视频生成，并提供了增强的优势。项目主页在这里 https://phantom-video.github.io/Phantom/。