LLM2D

摘要

arXiv:2407.15886v2 通告类型: replace-cross 摘要：基于扩散模型的虚拟试穿方法能够实现逼真的效果，但通常需要额外的编码模块、大量的训练参数和复杂的预处理步骤，从而增加了训练和推理的负担。在本文中，我们重新评估了额外模块的必要性，并分析了如何提高训练效率并减少推理过程中的冗余步骤。基于这些见解，我们提出了CatVTON，这是一种简单且高效的虚拟试穿扩散模型，通过在空间维度上连接任意类别的店内或穿戴服装作为扩散模型的输入，将其转移至目标个体。CatVTON的效率体现在三个方面：（1）轻量级网络。CatVTON仅包括一个VAE和一个简化后的去噪UNet，去除了冗余的图像和文本编码器以及交叉注意力，仅包含899.06M参数。（2）参数高效的训练。通过实验分析，我们确定自注意力模块对适应预训练扩散模型到虚拟试穿任务至关重要，仅需49.57M训练参数即可实现高质量的结果。（3）简化的推理。CatVTON消除了不必要的预处理步骤，如姿态估计、人体解析和描述生成，只需一张人体图像和服装参考即可指导虚拟试穿过程，与基于扩散的方法相比，内存使用量降低了超过49%。广泛的实验表明，CatVTON相比基线方法在定性和定量结果上均表现更优，并且尽管仅在包含73K样本的公共数据集上进行训练，但在野外场景中也展示了强大的泛化性能。