摘要
arXiv:2503.23888v1 Announce Type: cross
摘要:面部编辑修改面部的外观,这对于个人照片的定制和增强起着关键作用。尽管在文本驱动的面部编辑方面已经取得了显著的成功,但它们仍然面临重大挑战,因为没有任何一个模型能够同时满足多样性、可控性和灵活性的特点。为了解决这一挑战,我们提出了一种基于文本的面部编辑框架——MuseFace,该框架仅依赖于文本提示来实现面部编辑。具体而言,MuseFace 结合了文本到掩码扩散模型和语义意识面部编辑模型,能够直接从文本生成精细粒度的语义掩码并执行面部编辑。文本到掩码扩散模型为框架提供了多样性与灵活性,而语义意识面部编辑模型则确保了框架的可控性。我们的框架可以生成精细粒度的语义掩码,使得精确的面部编辑成为可能,极大地增强了面部编辑模型的可控性和灵活性。广泛的实验表明,MuseFace 实现了卓越的高保真性能。