LLM2D

摘要

arXiv:2503.18552v1 宣传类型：跨领域摘要：条件人体动画通过应用姿态等运动提示将静态参考图像转换为动态序列。这些运动提示通常源自视频数据，但受到时间分辨率低、运动模糊、过度曝光和低光条件下的不准确性等限制。相比之下，事件相机提供了具有极高时间分辨率、宽动态范围以及对运动模糊和曝光问题天然抵抗力的数据流。在此项工作中，我们提出了 EvAnimate，一种框架，该框架利用事件流作为运动提示来使静态人体图像动画化。我们的方法采用专门的事件表示，将其异步事件流转换为具有可控制的切片速率和适当切片密度的3通道切片，确保与扩散模型的兼容性。随后，采用双分支架构通过利用事件流中的固有运动动态生成高质量的视频，从而提高视频质量和时间一致性。专业化的数据增强策略进一步增强了跨不同人种的应用效果。最后，我们建立了一个新的基准测试，包括用于训练和验证的模拟事件数据集，以及用于捕捉正常和极端场景下人类行为的真实事件数据集。实验结果表明，在传统源自视频的提示表现不佳的场景中，EvAnimate实现了高时间保真度和稳健的性能。