LLM2D
超越单模态边界:具有多模态语义的生成推荐
Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics
作者: Jing Zhu, Mingxuan Ju, Yozen Liu, Danai Koutra, Neil Shah, Tong Zhao
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23333v1

摘要

arXiv:2503.23333v1 类别: cross 摘要: 生成推荐(GR)已成为推荐系统中的一种强大范式,它隐式地将模态和语义与项目表示联系起来,不同于之前依赖于自回归模型中的非语义项目标识符的方法。然而,之前的研究主要单独处理模态,通常假设项目的内容是单模态的(通常是文本)。我们认为,在现实世界的丰富、多模态数据和生成推荐模型对模态选择和使用的敏感性方面,这种做法存在一个显著的局限性。我们的工作旨在探索多模态生成推荐(MGR)的关键问题,强调在生成推荐框架中模态选择的重要性。我们揭示了生成推荐模型尤其对不同模态非常敏感,并探讨了在多种模态可用时实现有效生成推荐的挑战。通过评估有效利用多种模态的设计策略,我们确定了关键挑战,并引入了MGR-LF++,这是一种增强的后期融合框架,采用对比模态对齐和特殊标记来表示不同模态,与单模态替代方案相比,性能提高了超过20%。