摘要
arXiv:2504.17826v1 交叉发布类型: cross
摘要: 时尚搭配和个人化推荐在现代零售中至关重要,为时尚行业带来了巨大的经济价值。随着视觉语言模型(VLM)的出现,通过自然语言和视觉交互来增强零售业的新机遇也出现了。本文提出了一种名为FashionM3的多模态、多任务、多轮次时尚助手,该助手基于一个专门针对时尚任务微调的VLM构建。它通过提供多种能力,如个性化推荐、替代建议、产品图像生成和虚拟试穿仿真,帮助用户发现满意的职业装搭配。FashionM3在新颖的FashionRec数据集上进行微调,该数据集包含331,124个多模态对话样本,覆盖了基础推荐、个性化推荐和替代推荐任务,通过多轮交互提供上下文相关的个性化建议。定量和定性评估以及用户研究证明,FashionM3在推荐效果和作为时尚助手的实际价值方面表现出色。