LLM2D

摘要

深度学习推荐模型(DLRM)因其在处理大规模推荐任务方面的有效性而在推荐系统中越来越受欢迎。然而，DLRM的嵌入层由于其对内存容量和内存带宽的密集需求而成为性能瓶颈。本文提出了一种名为UpDLRM的模型，它利用真实的内存内处理(PIM)硬件UPMEM DPU来提高内存带宽并降低推荐延迟。DPU内存的并行特性可以为嵌入查找中大量不规则的内存访问提供高聚合带宽，从而具有降低推理延迟的巨大潜力。为了充分利用DPU内存带宽，我们进一步研究了嵌入表划分问题，以实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集的评估结果表明，与仅CPU和CPU-GPU混合方案相比，UpDLRM实现了更低的DLRM推理时间。