LLM2D

摘要

arXiv:2504.13078v1 宣布类型: 交叉摘要：计算机视觉正在通过虚拟试穿（VTON）和虚拟脱衣（VTOFF）改变时尚。VTON通过目标照片和标准服装图像生成戴有指定服装的人的图像，而更具挑战性的变体，人对人虚拟试穿（p2p-VTON），则使用另一人穿着该服装的照片。另一方面，VTOFF从穿着服装的人身上提取标准服装图像。我们引入了TryOffDiff，一种基于扩散的VTOFF模型。该模型建立在具有SigLIP图像条件的潜在扩散框架之上，能够有效地捕获服装的纹理、形状和图案等属性。TryOffDiff在VITON-HD上取得了最先进的结果，并在DressCode数据集上表现出色，覆盖上身、下身和连衣裙。通过特定类别的嵌入增强，它开创了多件服装VTOFF，这是第一个此类方法。当与VTON模型结合使用时，它可以通过最小化不必要的属性转移，如肤色，来提高p2p-VTON的效果。代码可在以下链接获取：https://rizavelioglu.github.io/tryoffdiff/