摘要
arXiv:2503.23039v1 类别: cross
摘要: 现有的基于音频的视觉配音方法已经取得了很大的成功。尽管如此,我们观察到空间域和时间域之间的语义模糊性显著降低了动态面部合成的稳定性。我们认为,从空间域和时间域对齐语义特征是有希望的稳定面部运动的方法。为实现这一目标,我们提出了一个空间-时间语义对齐(STSA)方法,该方法引入了一种双路径对齐机制和可微语义表示。前者利用一个一致信息学习(CIL)模块,在多个尺度上最大化互信息,从而减少空间域和时间域之间的流形差异。后者利用概率热图作为容错的指导,以避免由轻微的语义抖动生成的合成面部的异常动态。广泛的实验结果证明了所提出的STSA的优越性,尤其是在图像质量和合成稳定性方面。预训练权重和推断代码可在https://github.com/SCAILab-USTC/STSA获取。