LLM2D
利用多模态大型语言模型进行多模态序列推荐
Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation
作者: Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2408.09698v3

摘要

大型语言模型 (LLM) 在推荐系统 (RS) 领域展现出巨大潜力。大多数现有研究集中于将用户行为日志转换为文本提示,并利用提示微调等技术使 LLM 能够执行推荐任务。与此同时,人们对融合图像、文本和其他来源数据的多模态推荐系统产生了越来越大的兴趣,这些系统使用模态融合技术。这为现有的基于 LLM 的推荐范式带来了新的挑战,该范式仅依赖于文本模态信息。此外,尽管能够处理多模态输入的多模态大型语言模型 (MLLM) 已经出现,但如何为 MLLM 装备多模态推荐能力在很大程度上仍未探索。为此,本文提出了多模态大型语言模型增强的多模态顺序推荐 (MLLM-MSR) 模型。为了捕捉动态的用户偏好,我们设计了一种两阶段的用户偏好概括方法。具体来说,我们首先利用基于 MLLM 的项目概括器提取给定项目的图像特征,并将图像转换为文本。然后,我们采用循环用户偏好概括生成范式,基于基于 LLM 的用户概括器捕捉用户偏好的动态变化。最后,为了使 MLLM 能够执行多模态推荐任务,我们建议使用监督微调 (SFT) 技术微调基于 MLLM 的推荐器。对各种数据集进行的广泛评估验证了 MLLM-MSR 的有效性,展示了其在捕捉和适应用户偏好演变动态方面的优越能力。