LLM2D
MuseFace:基于扩散掩码生成方法的文本驱动 face 编辑
MuseFace: Text-driven Face Editing via Diffusion-based Mask Generation Approach
作者: Xin Zhang, Siting Huang, Xiangyang Luo, Yifan Xie, Weijiang Yu, Heng Chang, Fei Ma, Fei Yu
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23888v1

摘要

arXiv:2503.23888v1 Announce Type: cross 摘要:面部编辑修改面部的外观,这对于个人照片的定制和增强起着关键作用。尽管在文本驱动的面部编辑方面已经取得了显著的成功,但它们仍然面临重大挑战,因为没有任何一个模型能够同时满足多样性、可控性和灵活性的特点。为了解决这一挑战,我们提出了一种基于文本的面部编辑框架——MuseFace,该框架仅依赖于文本提示来实现面部编辑。具体而言,MuseFace 结合了文本到掩码扩散模型和语义意识面部编辑模型,能够直接从文本生成精细粒度的语义掩码并执行面部编辑。文本到掩码扩散模型为框架提供了多样性与灵活性,而语义意识面部编辑模型则确保了框架的可控性。我们的框架可以生成精细粒度的语义掩码,使得精确的面部编辑成为可能,极大地增强了面部编辑模型的可控性和灵活性。广泛的实验表明,MuseFace 实现了卓越的高保真性能。