LLM2D
基于多标识符项标记预训练生成推荐器
Pre-training Generative Recommender with Multi-Identifier Item Tokenization
作者: Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.04400v2

摘要

arXiv:2504.04400v2 宣告类型: replace-cross 摘要:生成式推荐以自回归的方式生成项目标识符,以推荐潜在项目。现有方法通常采用一对一映射策略,其中每个项目由单一标识符表示。然而,这种方案存在一些问题,例如低频项目的不理想的语义建模以及令牌序列数据中的有限多样性。为克服这些局限性,我们提出了一种MTGRec方法,其利用多标识符项目标记化来扩充生成式推荐器预训练的令牌序列数据。该方法包含两大创新点:多标识符项目标记化和渐进式推荐器预训练。对于多标识符项目标记化,我们利用RQ-VAE作为标记化骨干,并将相邻训练周期的模型检查点视为语义相关标记器。这使得每个项目可以关联多个标识符,从而使得单个用户交互序列可以转换为几个不同的数据组的令牌序列。对于渐进式推荐器预训练,我们引入了一种由数据影响估计引导的渐进式学习方案,在推荐器预训练过程中动态调整每组数据的采样概率。在预训练后,我们使用单一标记器微调模型,以确保推荐时准确识别项目。在三个公开基准数据集上进行的广泛实验表明,MTGRec在有效性和可扩展性方面均显著优于传统的和生成式的推荐基准方法。