摘要
大型语言模型 (LLM) 在推荐系统 (RS) 领域展现出巨大潜力。大多数现有研究集中于将用户行为日志转换为文本提示,并利用提示微调等技术使 LLM 能够执行推荐任务。与此同时,人们对融合图像、文本和其他来源数据的多模态推荐系统产生了越来越大的兴趣,这些系统使用模态融合技术。这为现有的基于 LLM 的推荐范式带来了新的挑战,该范式仅依赖于文本模态信息。此外,尽管能够处理多模态输入的多模态大型语言模型 (MLLM) 已经出现,但如何为 MLLM 装备多模态推荐能力在很大程度上仍未探索。为此,本文提出了多模态大型语言模型增强的多模态顺序推荐 (MLLM-MSR) 模型。为了捕捉动态的用户偏好,我们设计了一种两阶段的用户偏好概括方法。具体来说,我们首先利用基于 MLLM 的项目概括器提取给定项目的图像特征,并将图像转换为文本。然后,我们采用循环用户偏好概括生成范式,基于基于 LLM 的用户概括器捕捉用户偏好的动态变化。最后,为了使 MLLM 能够执行多模态推荐任务,我们建议使用监督微调 (SFT) 技术微调基于 MLLM 的推荐器。对各种数据集进行的广泛评估验证了 MLLM-MSR 的有效性,展示了其在捕捉和适应用户偏好演变动态方面的优越能力。