LLM2D
Hexcute:一种具有自动布局和任务映射合成的基于瓷砖的编程语言
Hexcute: A Tile-based Programming Language with Automatic Layout and Task-Mapping Synthesis
作者: Xiao Zhang, Yaoyao Ding, Yang Hu, Gennady Pekhimenko
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.16214v2

摘要

arXiv:2504.16214v2 宣告类型: replace-cross 摘要:深度学习(DL)工作负载主要在GPU等加速器上运行。近期的DL量化技术需要一个新的混合输入数据类型的矩阵乘法运算符,这进一步复杂了GPU的优化。之前的一些高级编译器,如Triton,缺乏实现细粒度数据管道和硬件友好的内存布局等关键优化的能力,而像Hidet、Graphene和CUTLASS这样的低级编程模型则要求大量的编程努力。为了在表达能力和工程努力之间取得平衡,我们提出了一种基于瓷砖的编程语言Hexcute,它暴露了共享内存和寄存器抽象,以实现这些操作符的细粒度优化。此外,Hexcute利用任务映射来调度GPU程序,并通过一种新型的类型推理算法自动生成布局和任务映射。我们的评估表明,Hexcute可以应用于广泛类型的DL操作符,在混合类型操作符方面比现有DL编译器实现了1.7-11.28倍的速度提升,并且在端到端评估方面带来了高达2.91倍的速度提升。