LLM2D

摘要

大型语言模型 (LLM) 在推荐系统 (RS) 领域展现出巨大潜力。大多数现有研究集中于将用户行为日志转换为文本提示，并利用提示微调等技术使 LLM 能够执行推荐任务。与此同时，人们对融合图像、文本和其他来源数据的多模态推荐系统产生了越来越大的兴趣，这些系统使用模态融合技术。这为现有的基于 LLM 的推荐范式带来了新的挑战，该范式仅依赖于文本模态信息。此外，尽管能够处理多模态输入的多模态大型语言模型 (MLLM) 已经出现，但如何为 MLLM 装备多模态推荐能力在很大程度上仍未探索。为此，本文提出了多模态大型语言模型增强的多模态顺序推荐 (MLLM-MSR) 模型。为了捕捉动态的用户偏好，我们设计了一种两阶段的用户偏好概括方法。具体来说，我们首先利用基于 MLLM 的项目概括器提取给定项目的图像特征，并将图像转换为文本。然后，我们采用循环用户偏好概括生成范式，基于基于 LLM 的用户概括器捕捉用户偏好的动态变化。最后，为了使 MLLM 能够执行多模态推荐任务，我们建议使用监督微调 (SFT) 技术微调基于 MLLM 的推荐器。对各种数据集进行的广泛评估验证了 MLLM-MSR 的有效性，展示了其在捕捉和适应用户偏好演变动态方面的优越能力。