LLM2D
在推荐系统中通过语义ID增强嵌入表示稳定性
Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID
作者: Carolina Zheng, Minhui Huang, Dmitrii Pedchenko, Kaushik Rangadurai, Siyu Wang, Gaby Nahum, Jie Lei, Yang Yang, Tao Liu, Zutian Luo, Xiaohan Wei, Dinesh Ramasamy, Jiyan Yang, Yiping Han, Lin Yang, Hangjun Xu, Rong Jin, Shuang Yang
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02137v1

摘要

arXiv:2504.02137v1 类型: cross 摘要:在线内容的指数增长给工业推荐系统中的基于ID的模型带来了重大挑战,这些问题从极端的高卡尼亚性和动态增长的ID空间,到参与度分布的极度偏差,再到由于自然ID生命周期(例如新ID的出生和旧ID的退休)导致的预测不稳定。为了解决这些问题,许多系统依赖随机哈希来处理ID空间,并控制相应的模型参数(即嵌入表)。然而,这种方法引入了来自共享同一嵌入的多个ID的数据污染,导致模型性能下降和嵌入表示的不稳定性。 本文探讨了这些问题,并引入了一种新的标记参数化技术——语义ID前缀ngram,该技术显著提高了原始语义ID的性能。语义ID前缀ngram通过基于内容嵌入层次聚类项目,而不是随机分配,来创建语义上有意义的碰撞。通过广泛的实验,我们证明语义ID前缀ngram不仅解决了嵌入的不稳定性,而且还显著提高了尾部ID建模,减少了过拟合,并缓解了表示偏差。此外,我们还强调了语义ID前缀ngram在基于注意力的模型中的优势,这些模型可以为客户历史提供语境化,展示了显著的性能改进。我们还报告了将语义ID集成到Meta生产的广告排名系统中的经验,这在实时部署中带来了显著的性能提升和增强的预测稳定性。