LLM2D

摘要

arXiv:2504.02312v1 Announce Type: 横向摘要：相机控制通过改变相机位置和姿态实现多样的视觉效果，已引起了广泛关注。然而，现有方法面临复杂的交互和有限的控制能力等问题。为了解决这些问题，我们提出了OmniCam，一个统一的多模态相机控制框架。借助大型语言模型和视频扩散模型，OmniCam 生成时空一致的视频。它支持各种输入模态的组合：用户可以提供文本或视频作为相机路径指导，以及图像或视频作为内容参考，从而精确控制相机运动。为了便于训练OmniCam，我们引入了OmniTr数据集，其中包括大量高质量的长序列轨迹、视频及其相应的描述。实验结果表明，我们的模型在各种指标上实现了高质量相机控制视频生成的最先进性能。