LLM2D

摘要

arXiv:2504.02137v1 类型: cross 摘要：在线内容的指数增长给工业推荐系统中的基于ID的模型带来了重大挑战，这些问题从极端的高卡尼亚性和动态增长的ID空间，到参与度分布的极度偏差，再到由于自然ID生命周期（例如新ID的出生和旧ID的退休）导致的预测不稳定。为了解决这些问题，许多系统依赖随机哈希来处理ID空间，并控制相应的模型参数（即嵌入表）。然而，这种方法引入了来自共享同一嵌入的多个ID的数据污染，导致模型性能下降和嵌入表示的不稳定性。本文探讨了这些问题，并引入了一种新的标记参数化技术——语义ID前缀ngram，该技术显著提高了原始语义ID的性能。语义ID前缀ngram通过基于内容嵌入层次聚类项目，而不是随机分配，来创建语义上有意义的碰撞。通过广泛的实验，我们证明语义ID前缀ngram不仅解决了嵌入的不稳定性，而且还显著提高了尾部ID建模，减少了过拟合，并缓解了表示偏差。此外，我们还强调了语义ID前缀ngram在基于注意力的模型中的优势，这些模型可以为客户历史提供语境化，展示了显著的性能改进。我们还报告了将语义ID集成到Meta生产的广告排名系统中的经验，这在实时部署中带来了显著的性能提升和增强的预测稳定性。