LLM2D
多模态内容兴趣建模范式 for 用户行为建模
MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling
作者: Bencheng Yan, Si Chen, Shichang Jia, Jianyu Liu, Yueran Liu, Chenghan Fu, Wanxian Guan, Hui Zhao, Xiang Zhang, Kai Zhang, Wenbo Su, Pengjie Wang, Jian Xu, Bo Zheng, Baolin Liu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.00321v2

摘要

arXiv:2502.00321v2 宣告类型: 交叉替换 摘要:点击率(CTR)预测是推荐系统、在线搜索和广告平台中的一项关键任务,准确捕捉用户对内容的真实兴趣对于性能至关重要。然而,现有方法严重依赖于ID嵌入,无法反映用户对如图像和标题等内容的真实偏好。这一限制在冷启动和长尾场景中尤为明显,传统方法在这种情况下难以提供有效结果。为了应对这些挑战,我们提出了一种新的多模态内容兴趣建模范式(MIM),它包含三个关键阶段:预训练、内容-兴趣感知监督微调(C-SFT)和内容-兴趣感知UBM(CiUBM)。预训练阶段将基础模型适应特定领域的数据,从而能够提取高质量的多模态嵌入。C-SFT阶段通过利用用户行为信号来弥合内容和用户兴趣之间的语义差距,引导嵌入与用户偏好对齐。最后,CiUBM阶段将多模态嵌入和基于ID的协同过滤信号融合到一个统一框架中。在阿里巴巴淘宝网——世界上最大的电子商务平台之一——进行的全面离线实验和在线A/B测试显示了MIM方法的有效性和效率。该方法已被成功部署到线上,实现了CTR +14.14%和RPM +4.12%的显著提升,展示了其在工业应用中的适用性和对平台性能的显著影响。为促进进一步研究,我们在https://pan.quark.cn/s/8fc8ec3e74f3上公开发布了代码和数据集。