LLM2D
ENCLIP:基于集成和聚类的对比语言图像预训练方法,用于解决时尚多模态搜索中数据有限和图像质量低的问题
ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images
作者: Prithviraj Purushottam Naik, Rohit Agarwal
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16096v1

摘要

多模态搜索彻底改变了时尚行业,为用户发现和探索时尚单品提供了一种无缝且直观的方式。用户可以根据他们的偏好、风格或特定属性,通过结合文本和图像信息来搜索产品。文本到图像的搜索使用户能够找到视觉上相似的商品或使用自然语言描述产品。本文提出了一种名为ENCLIP的创新方法,用于增强对比语言图像预训练(CLIP)模型的性能,尤其是在针对时尚智能领域的跨模态搜索方面。该方法侧重于解决有限的数据可用性和低质量图像带来的挑战。本文提出了一种算法,该算法涉及训练和集成多个CLIP模型实例,并利用聚类技术将相似的图像分组。本研究中提出的实验结果证明了该方法的有效性。这种方法释放了CLIP在时尚智能领域的潜力,在该领域,数据稀缺和图像质量问题普遍存在。总的来说,ENCLIP方法为时尚智能领域做出了宝贵的贡献,并为在数据有限和图像质量低的情况下优化CLIP模型提供了一个切实可行的解决方案。