LLM2D

摘要

arXiv:2503.08120v2 宣告类型: replace-cross 摘要：统一多模态模型（UMMs）已成为基础计算机视觉研究的强大范式，在图像理解和生成方面展现出显著潜力。然而，现有面向面部领域的研究主要集中在粗略的面部属性理解上，对于精细粒度的面部属性处理能力有限，且没有涉及生成能力。为克服这些限制，我们提出了Uni$\textbf{F}^2$ace，这是第一个专门用于精细粒度面部理解和生成的UMM。总体而言，我们使用两种相互促进的扩散技术以及两层专家混合架构，在自构建的专业数据集上训练Uni$\textbf{F}^2$ace。具体而言，首先构建了一个大规模面部数据集Uni$\textbf{F}^2$ace-130K，包含了13万个图像-文本配对和100万个问答配对，涵盖了一系列面部属性。其次，我们建立了离散扩散评分匹配与遮蔽生成模型之间的理论联系，同时优化了证据下界，这显著提高了模型合成面部细节的能力。最后，我们引入了令牌级和序列级的专家混合架构，实现了高效精细粒度的表示学习，既可以用于理解任务，也可以用于生成任务。在Uni$\textbf{F}^2$ace-130K上的广泛实验表明，Uni$\textbf{F}^2$ace在理解和生成任务上均优于现有UMM和生成模型，取得了更优异的表现。