LLM2D
Hexcute:一种带有自动布局和任务映射合成的基于瓷砖的编程语言
Hexcute: A Tile-based Programming Language with Automatic Layout and Task-Mapping Synthesis
作者: Xiao Zhang, Yaoyao Ding, Yang Hu, Gennady Pekhimenko
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16214v1

摘要

arXiv:2504.16214v1 类型: cross 摘要:深度学习(DL)工作负载主要在像GPU这样的加速器上运行。近期的DL量化技术要求一个新的混合输入数据类型的矩阵乘法操作符,进一步复杂化了GPU优化。早期的高级编译器如Triton缺乏实现关键优化(如细粒度的数据流水线和硬件友好的内存布局)的表达能力,而低级编程模型如Hidet、Graphene和CUTLASS则需要大量编程努力。为了平衡表达能力和工程实现的努力,我们提出Hexcute,这是一种基于瓦片的编程语言,它暴露了共享内存和寄存器抽象,以实现这些操作符的细粒度优化。此外,Hexcute利用任务映射来调度GPU程序,并通过一种基于类型推断的新颖算法自动化布局和任务映射合成。我们的评估表明,Hexcute能够应用于广泛的DL操作符,在混合类型操作符上比现有DL编译器实现了1.7至11.28倍的加速,并在端到端评估中带来了高达2.91倍的加速。