LLM2D
多模态内容兴趣建模范式for用户行为建模
MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling
作者: Bencheng Yan, Si Chen, Shichang Jia, Jianyu Liu, Yueran Liu, Chenghan Fu, Wanxian Guan, Hui Zhao, Xiang Zhang, Kai Zhang, Wenbo Su, Pengjie Wang, Jian Xu, Bo Zheng, Baolin Liu
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.00321v3

摘要

arXiv:2502.00321v3 宣布类型: replace-cross 摘要:点击率(CTR)预测是推荐系统、在线搜索和广告平台中的关键任务,准确捕捉用户对内容的真实兴趣对于性能至关重要。然而,现有方法严重依赖ID嵌入,无法反映用户对内容如图片和标题的真实偏好。这一限制在冷启动和长尾场景中尤为明显,传统方法在这种情况下很难提供有效的结果。为了解决这些挑战,我们提出了一种新的多模态内容兴趣建模范式(MIM),它包括三个关键阶段:预训练、内容兴趣感知监督微调(C-SFT)和内容兴趣感知UBM(CiUBM)。预训练阶段将基础模型适应领域特定数据,使提取高质量的多模态嵌入成为可能。C-SFT阶段通过利用用户行为信号来弥合内容与用户兴趣之间的语义差距,引导嵌入与用户偏好的对齐。最后,CiUBM阶段将多模态嵌入和基于ID的协同过滤信号整合到一个统一框架中。在淘宝上进行的全面离线实验和在线A/B测试证明了MIM方法的有效性和效率。该方法已成功部署在线,实现了CTR提高14.14%和RPM提高4.12%的增长,展示了其在工业应用中的适用性和对平台性能的重大影响。为了促进进一步研究,我们已公开发布了代码和数据集,网址为https://pan.quark.cn/s/8fc8ec3e74f3。