摘要
arXiv:2503.19001v1 Announce Type: cross
摘要:近期在生成面部表情方面的进展显著提高了面部动画合成的质量。然而,现有的方法面临着根本性的局限性:基于3DMM的方法能够保持时间一致性,但缺乏精细区域的控制,而基于Stable Diffusion的方法则允许空间操作,但会遭受时间不一致性的问题。将这两种方法结合起来受到不兼容控制机制和面部表示的语义纠缠的阻碍。本文提出了DisentTalk,引入了一种数据驱动的语义解纠缠框架,将3DMM表情参数分解为有意义的子空间,以实现精细的面部控制。基于这种解纠缠表示,我们开发了一种分层潜空间扩散架构,该架构在3DMM参数空间中操作,并结合了区域意识的注意力机制,以确保空间精度和时间连贯性。为了解决高质量中文训练数据的稀缺问题,我们引入了CHDTF,这是一种高分辨率的中文生成面部表情数据集。广泛的实验表明,DisentTalk在多个指标上(包括嘴唇同步、表情质量和时间一致性)超过了现有方法。项目页面:https://kangweiiliu.github.io/DisentTalk。