LLM2D

摘要

arXiv:2409.15259v1 公告类型: 交叉摘要: 近期利用扩散模型进行文本到视频(T2V)生成的进展引起了广泛关注。然而,现有的T2V模型主要关注包含单一对象执行单一动作的简单场景。在涉及多个具有不同动作的对象的场景中,挑战随之而来,往往导致对象与其对应动作之间的视频-文本对齐错误。为应对这一挑战,我们提出了\textbf{S$^2$AG-Vid},一种无需训练的推理阶段优化方法,旨在改进T2V模型中多个对象与其对应动作的对齐。S$^2$AG-Vid首先在去噪过程的早期阶段应用基于空间位置的交叉注意力(CA)约束,促进多个名词清晰地关注正确的对象区域。为增强动作-对象绑定,我们在后续的去噪阶段实施语法引导的对比约束,旨在提高动词的CA图与其对应名词之间的关联性。定性和定量评估均表明,所提出的框架显著优于基线方法,生成质量更高、对象-动作一致性更好的视频。