LLM2D
放松:端到端动态机器学习的可组合抽象
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning
作者: Ruihang Lai, Junru Shao, Siyuan Feng, Steven S. Lyubomirsky, Bohan Hou, Wuwei Lin, Zihao Ye, Hongyi Jin, Yuchen Jin, Jiawei Liu, Lesheng Jin, Yaxing Cai, Ziheng Jiang, Yong Wu, Sunghyun Park, Prakalp Srivastava, Jared G. Roesch, Todd C. Mowry, Tianqi Chen
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2311.02103v2

摘要

arXiv:2311.02103v2 宣布类型: replace-cross 摘要:动态形状计算已成为现代机器学习工作负载中的关键要素,尤其是在新兴的大型语言模型中。这些模型的成功推动了它们在多样化后端环境中的广泛应用需求。本文介绍了一种名为Relax的编译器抽象,用于优化端到端的动态机器学习工作负载。Relax 引入了一种跨级别的抽象,该抽象将计算图、循环级别的张量程序以及外部库调用统一在一个表示中。Relax 还引入了一级符号形状注释,以在全球范围内跟踪程序中的动态形状计算,从而实现动态形状感知的跨级别优化。我们使用 Proposed 方法构建了一个端到端的编译框架来优化动态形状模型。实验结果表明,Relax 在各种GPU上的性能与最先进的系统相当,并能够将新兴模型部署到更广泛的新兴环境中,包括移动电话、嵌入式设备和网页浏览器。