LLM2D

摘要

arXiv:2410.12228v2 宣告类型: replace-cross 摘要: 将多种数据模态集成对于提高个性化推荐系统的性能至关重要。传统的模型通常依赖单一的数据源，缺乏足够的深度来准确捕捉项目特性和用户行为的多维本质。本文介绍了一种新的多行为推荐框架，利用三模态融合（视觉、文本和图数据），并通过大型语言模型（LLM）进行对齐。通过引入视觉信息，我们能够捕捉到项目的上下文和美感特性；文本数据提供了用户兴趣和项目特性的详细见解；图数据则阐明了项目行为异构图内的关系。我们提出的模型称为三模态融合（TMF），利用LLM的力量对齐和整合这三种模态，实现对用户行为的全面表示。LLM模型用户与项目特征的自然语言交互。最初，LLM仅使用基于自然语言的提示进行预热。然后，我们基于交叉注意力和自我注意力机制设计了模态融合模块，将来自其他模型的不同模态整合到同一嵌入空间中，并将其整合到LLM中。大量的实验表明，我们的方法在提高推荐准确性方面非常有效。进一步的消融研究验证了我们模型设计的有效性以及TMF的益处。