LLM2D

摘要

arXiv:2502.03426v1 Announce Type: cross 摘要：通过姿态指导的人像图像合成（PGPIS）可以从源图像生成保持主体身份的同时采用指定的目标姿态（例如，骨架）的图像。虽然基于扩散的PGPIS方法在姿态变换过程中有效地保留了面部特征，但在整个扩散过程中，它们往往难以准确地从源图像保持服装细节。这种限制在源姿态和目标姿态之间存在较大差异时尤为明显，对服装行业中的PGPIS应用造成了严重影响，因为服装风格的保留对于版权保护至关重要。我们的分析表明，这一限制主要源于条件扩散模型的注意力模块无法充分捕捉和保留服装图案。为了应对这一限制，我们提出了一种人类解析引导的注意力扩散方法，这是一种新型方法，能够有效保留面部和服装的外观，同时生成高质量的结果。我们提出了一种对人类解析敏感的Siamese网络，该网络由三个关键组件组成：双相同的UNets（TargetNet用于扩散去噪，SourceNet用于源图像嵌入提取）、人类解析引导融合注意力（HPFA）以及CLIP引导注意力对齐（CAA）。HPFA和CAA模块可以适应地并有效地将面部和服装模式嵌入目标图像生成中。在室内服装检索基准和最新的人在野外编辑数据集中进行的大量实验表明，与13种基线方法相比，我们的方法在保留源图像中的面部和服装外观方面具有显著优势。