LLM2D

摘要

arXiv:2311.02103v2 宣布类型: replace-cross 摘要：动态形状计算已成为现代机器学习工作负载中的关键要素，尤其是在新兴的大型语言模型中。这些模型的成功推动了它们在多样化后端环境中的广泛应用需求。本文介绍了一种名为Relax的编译器抽象，用于优化端到端的动态机器学习工作负载。Relax 引入了一种跨级别的抽象，该抽象将计算图、循环级别的张量程序以及外部库调用统一在一个表示中。Relax 还引入了一级符号形状注释，以在全球范围内跟踪程序中的动态形状计算，从而实现动态形状感知的跨级别优化。我们使用 Proposed 方法构建了一个端到端的编译框架来优化动态形状模型。实验结果表明，Relax 在各种GPU上的性能与最先进的系统相当，并能够将新兴模型部署到更广泛的新兴环境中，包括移动电话、嵌入式设备和网页浏览器。