摘要
硬件加速器的集成显著提升了现代推荐系统的功能,使其能够探索以前被认为不切实际的复杂排序范式。然而,基于 GPU 的计算成本带来了巨大的挑战。本文展示了我们开发的一种效率驱动的探索这些范式的方案,超越了对原生 PyTorch 模块的传统依赖。我们解决了排序模型对长度可变的类别特征的依赖所带来的特定挑战,这些特征会使 GPU 利用率复杂化。我们引入了锯齿特征交互内核,这是一种新颖的方法,旨在通过有效处理动态大小的张量从长类别特征中提取细粒度的见解。我们通过将锯齿张量与闪光注意机制相结合,进一步提高了注意机制的性能。我们的新型锯齿闪光注意机制与密集注意机制相比,速度提高了 9 倍,内存减少了 22 倍。值得注意的是,它也优于密集闪光注意机制,速度提高了 3 倍,内存效率提高了 53%。在生产模型中,我们观察到 QPS 提高了 10%,内存节省了 18%,使我们能够扩展具有更长特征和更复杂架构的推荐系统。