LLM2D

摘要

arXiv:2504.14011v1 交叉发布类型: cross 摘要：近年来，随着电商平台和虚拟应用的广泛使用，时尚行业越来越多地采用人工智能技术以增强客户体验。在各种任务中，虚拟试穿和多模态时尚图像编辑——这种编辑利用了诸如文本、服装草图和身体姿态等多种输入模态——已经成为研究的重点领域。扩散模型已成为此类生成任务的主要方法，能够提供高质量和多样性的图像。然而，现有大多数虚拟试穿方法都依赖于特定的服装输入，这在实际应用中往往不切实际，因为用户可能只提供文本说明。为了解决这一限制，本文提出了一种名为Fashion Retrieval-Augmented Generation (Fashion-RAG) 的新方法，该方法可以根据文本形式提供的用户偏好定制时尚物品。我们的方法检索多个符合输入说明的服装，并通过整合检索到的物品的属性生成个性化图像。为此，我们采用了文本反转技术，在这种技术中，检索到的服装图像被投影到 Stable Diffusion 文本编码器的文本嵌入空间中，使得检索到的元素能够无缝地整合到生成过程中。在 Dress Code 数据集上的实验结果表明，Fashion-RAG 在定性和定量上都优于现有的方法，有效地捕捉到了检索到的服装的细节。据我们所知，这是首次提出一种专门针对多模态时尚图像编辑的检索增强生成方法。