LLM2D
FashionM3:基于统一视觉-语言模型的多模态、多任务和多轮服装助理
FashionM3: Multimodal, Multitask, and Multiround Fashion Assistant based on Unified Vision-Language Model
作者: Kaicheng Pang, Xingxing Zou, Waikeung Wong
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.17826v1

摘要

arXiv:2504.17826v1 交叉发布类型: cross 摘要: 时尚搭配和个人化推荐在现代零售中至关重要,为时尚行业带来了巨大的经济价值。随着视觉语言模型(VLM)的出现,通过自然语言和视觉交互来增强零售业的新机遇也出现了。本文提出了一种名为FashionM3的多模态、多任务、多轮次时尚助手,该助手基于一个专门针对时尚任务微调的VLM构建。它通过提供多种能力,如个性化推荐、替代建议、产品图像生成和虚拟试穿仿真,帮助用户发现满意的职业装搭配。FashionM3在新颖的FashionRec数据集上进行微调,该数据集包含331,124个多模态对话样本,覆盖了基础推荐、个性化推荐和替代推荐任务,通过多轮交互提供上下文相关的个性化建议。定量和定性评估以及用户研究证明,FashionM3在推荐效果和作为时尚助手的实际价值方面表现出色。