LLM2D

摘要

arXiv:2505.06537v1 Announce Type: cross 摘要：时尚视频生成的目标是从指定角色的参考图像中合成时间上一致的视频。尽管取得了显著进展，现有的基于扩散的方法仅支持单个参考图像作为输入，这严重限制了它们生成视角一致的时尚视频的能力，尤其是在衣服从不同角度有不同的图案时。此外，广泛采用的运动模块未能充分建模人体动作，导致时空一致性不够优化。为了解决这些问题，我们提出了ProFashion，这是一种利用多个参考图像的时尚视频生成框架，以实现更好的视角一致性和时间连贯性。为了有效地利用多个参考图像的特征并维持合理的计算成本，我们设计了一种姿态感知原型聚合器，该聚合器根据姿态信息选择和聚合全局和细粒度的参考特征，从而形成帧级原型，作为去噪过程中的指导。为了进一步增强动作一致性，我们引入了一种流增强原型实例化器，该实例化器利用人体关键点的运动流来引导去噪器中的额外时空注意力过程。为了证明ProFashion的有效性，我们对从互联网收集的MRFashion-7K数据集进行了广泛的评估。ProFashion在UBC Fashion数据集上也优于先前的方法。