摘要
arXiv:2504.02137v1 类型: cross
摘要:在线内容的指数增长给工业推荐系统中的基于ID的模型带来了重大挑战,这些问题从极端的高卡尼亚性和动态增长的ID空间,到参与度分布的极度偏差,再到由于自然ID生命周期(例如新ID的出生和旧ID的退休)导致的预测不稳定。为了解决这些问题,许多系统依赖随机哈希来处理ID空间,并控制相应的模型参数(即嵌入表)。然而,这种方法引入了来自共享同一嵌入的多个ID的数据污染,导致模型性能下降和嵌入表示的不稳定性。
本文探讨了这些问题,并引入了一种新的标记参数化技术——语义ID前缀ngram,该技术显著提高了原始语义ID的性能。语义ID前缀ngram通过基于内容嵌入层次聚类项目,而不是随机分配,来创建语义上有意义的碰撞。通过广泛的实验,我们证明语义ID前缀ngram不仅解决了嵌入的不稳定性,而且还显著提高了尾部ID建模,减少了过拟合,并缓解了表示偏差。此外,我们还强调了语义ID前缀ngram在基于注意力的模型中的优势,这些模型可以为客户历史提供语境化,展示了显著的性能改进。我们还报告了将语义ID集成到Meta生产的广告排名系统中的经验,这在实时部署中带来了显著的性能提升和增强的预测稳定性。