LLM2D

摘要

arXiv:2503.23888v1 Announce Type: cross 摘要：面部编辑修改面部的外观，这对于个人照片的定制和增强起着关键作用。尽管在文本驱动的面部编辑方面已经取得了显著的成功，但它们仍然面临重大挑战，因为没有任何一个模型能够同时满足多样性、可控性和灵活性的特点。为了解决这一挑战，我们提出了一种基于文本的面部编辑框架——MuseFace，该框架仅依赖于文本提示来实现面部编辑。具体而言，MuseFace 结合了文本到掩码扩散模型和语义意识面部编辑模型，能够直接从文本生成精细粒度的语义掩码并执行面部编辑。文本到掩码扩散模型为框架提供了多样性与灵活性，而语义意识面部编辑模型则确保了框架的可控性。我们的框架可以生成精细粒度的语义掩码，使得精确的面部编辑成为可能，极大地增强了面部编辑模型的可控性和灵活性。广泛的实验表明，MuseFace 实现了卓越的高保真性能。