LLM2D
Uni$\textbf{F}^2$ace:统一多模态模型下的细粒度faces理解与生成
Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
作者: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.08120v2

摘要

arXiv:2503.08120v2 宣告类型: replace-cross 摘要:统一多模态模型(UMMs)已成为基础计算机视觉研究的强大范式,在图像理解和生成方面展现出显著潜力。然而,现有面向面部领域的研究主要集中在粗略的面部属性理解上,对于精细粒度的面部属性处理能力有限,且没有涉及生成能力。为克服这些限制,我们提出了Uni$\textbf{F}^2$ace,这是第一个专门用于精细粒度面部理解和生成的UMM。总体而言,我们使用两种相互促进的扩散技术以及两层专家混合架构,在自构建的专业数据集上训练Uni$\textbf{F}^2$ace。具体而言,首先构建了一个大规模面部数据集Uni$\textbf{F}^2$ace-130K,包含了13万个图像-文本配对和100万个问答配对,涵盖了一系列面部属性。其次,我们建立了离散扩散评分匹配与遮蔽生成模型之间的理论联系,同时优化了证据下界,这显著提高了模型合成面部细节的能力。最后,我们引入了令牌级和序列级的专家混合架构,实现了高效精细粒度的表示学习,既可以用于理解任务,也可以用于生成任务。在Uni$\textbf{F}^2$ace-130K上的广泛实验表明,Uni$\textbf{F}^2$ace在理解和生成任务上均优于现有UMM和生成模型,取得了更优异的表现。