LLM2D

摘要

大型语言模型（LLMs）在各个领域取得了显著的成功，促使多项研究探索其在推荐系统中的潜力。然而，这些尝试迄今为止仅在传统推荐模型上取得了适度的改进。此外，三个关键问题仍未得到充分探索：首先，LLMs的预训练权重（通常被认为封装了世界知识）的实际价值；其次，推荐任务中微调的必要性；最后，LLMs在推荐系统中是否能展现出与其他领域相同的可扩展性优势。本文提出了一种新颖的分层大型语言模型（HLLM）架构，旨在增强序列推荐系统。我们的方法采用双层模型：第一层Item LLM从项目的详细文本描述中提取丰富的内容特征，而第二层User LLM利用这些特征基于用户的交互历史预测其未来兴趣。大量实验表明，我们的方法有效利用了开源LLMs的预训练能力，进一步微调带来了显著的性能提升。此外，HLLM具有出色的可扩展性，最大配置使用7B参数进行项目特征提取和用户兴趣建模。此外，HLLM提供了卓越的训练和服务效率，使其在实际应用中具有实用性。在两个大规模数据集PixelRec和Amazon Reviews上的评估显示，HLLM达到了最先进的结果，大幅超越了传统的基于ID的模型。在线A/B测试中，HLLM展示了显著的收益，验证了其在实际推荐场景中的实际影响。代码可在https://github.com/bytedance/HLLM获取。