摘要
arXiv:2311.02103v2 宣布类型: replace-cross
摘要:动态形状计算已成为现代机器学习工作负载中的关键要素,尤其是在新兴的大型语言模型中。这些模型的成功推动了它们在多样化后端环境中的广泛应用需求。本文介绍了一种名为Relax的编译器抽象,用于优化端到端的动态机器学习工作负载。Relax 引入了一种跨级别的抽象,该抽象将计算图、循环级别的张量程序以及外部库调用统一在一个表示中。Relax 还引入了一级符号形状注释,以在全球范围内跟踪程序中的动态形状计算,从而实现动态形状感知的跨级别优化。我们使用 Proposed 方法构建了一个端到端的编译框架来优化动态形状模型。实验结果表明,Relax 在各种GPU上的性能与最先进的系统相当,并能够将新兴模型部署到更广泛的新兴环境中,包括移动电话、嵌入式设备和网页浏览器。