LLM2D

摘要

arXiv:2504.04400v1 通告类型: cross 摘要: 生成推荐模型自回归地生成项目标识符以推荐潜在项目。现有方法通常采用一对一映射策略，其中每个项目由单个标识符表示。然而，这种方案存在一些问题，如低频项目语义建模不佳以及标记序列数据多样性有限。为了克服这些限制，我们提出了MTGRec，这是一种利用多标识符项目标记化来增强生成推荐器预训练标记序列数据的方法。我们的方法包含两个关键技术创新：多标识符项目标记化和有计划的推荐器预训练。对于多标识符项目标记化，我们采用RQ-VAE作为标记器主干，并将相邻训练周期的模型检查点视为语义相关的标记器。这使得每个项目可以关联多个标识符，从而允许单个用户交互序列被转换为多个标记序列，作为不同的数据组。对于有计划的推荐器预训练，我们引入了一种由数据影响估计指导的学习方案，在推荐器预训练过程中动态调整每个数据组的采样概率。在预训练完成后，我们使用单一标记器对模型进行微调，以确保推荐中的准确项目识别。在三个公开基准数据集上的广泛实验表明，在效果和可扩展性方面，MTGRec 显著优于传统的生成推荐基准模型。