摘要
arXiv:2410.12228v2 宣告类型: replace-cross
摘要: 将多种数据模态集成对于提高个性化推荐系统的性能至关重要。传统的模型通常依赖单一的数据源,缺乏足够的深度来准确捕捉项目特性和用户行为的多维本质。本文介绍了一种新的多行为推荐框架,利用三模态融合(视觉、文本和图数据),并通过大型语言模型(LLM)进行对齐。通过引入视觉信息,我们能够捕捉到项目的上下文和美感特性;文本数据提供了用户兴趣和项目特性的详细见解;图数据则阐明了项目行为异构图内的关系。我们提出的模型称为三模态融合(TMF),利用LLM的力量对齐和整合这三种模态,实现对用户行为的全面表示。LLM模型用户与项目特征的自然语言交互。最初,LLM仅使用基于自然语言的提示进行预热。然后,我们基于交叉注意力和自我注意力机制设计了模态融合模块,将来自其他模型的不同模态整合到同一嵌入空间中,并将其整合到LLM中。大量的实验表明,我们的方法在提高推荐准确性方面非常有效。进一步的消融研究验证了我们模型设计的有效性以及TMF的益处。