LLM2D

摘要

arXiv:2504.12007v1 交叉公告类型摘要：近年来，基于大型语言模型（LLM）的推荐系统（RecSys）取得了显著的发展趋势。当前的研究主要集中在将复杂的用户-物品交互表示在离散空间内，以符合语言模型固有的离散性质。然而，这种方法由于其离散性质存在局限性：（i）在离散化过程中信息常常被压缩；（ii）在真实场景中由于词汇量的限制，用户和物品的分词和生成受到约束。拥抱连续化数据为提高表达能力提供了一种有前景的替代方案，尽管这种方法仍处于初期阶段。为解决这一问题，我们提出了一种新颖的框架DeftRec，该框架结合了去噪扩散模型，使基于LLM的RecSys能够无缝支持连续的分词作为输入和目标。首先，我们引入了一个具有掩码操作和增广K路架构的 robust 分词器来为用户和物品索引，将它们的复杂协作关系捕捉到连续的分词中。最关键的是，我们开发了一种去噪扩散模型，该模型在连续域内处理用户偏好，通过预训练的大语言模型指导推理内容进行条件化。在去噪过程中，我们将目标重新定义为包含负交互，构建全面理解用户偏好的方式，从而实现有效的准确的推荐生成。最后，给定连续的分词作为输出，可通过基于评分的检索轻松生成推荐。广泛的实验表明所提出方法的有效性，展示了DeftRec在传统和新兴的基于LLM的RecSys基准中均超越了竞争性基准。