摘要
arXiv:2410.16135v2 宣告类型: replace-cross
摘要: 到目前为止,2:4稀疏性是唯一一种可以在GPU上利用稀疏张量内核加速的稀疏模式。实践中,2:4稀疏性往往只能带来较低的实际加速比($\leq 1.3$),并且需要固定稀疏比例,这意味着其他比例,如4:8、8:16,或超过50%稀疏性的情况,在GPU上不会带来任何加速。最近的研究表明,V:N:M稀疏性在解决2:4稀疏性这些局限性方面颇具前景。然而,关于准确性方面,V:N:M稀疏性对更广泛的变换器模型,如视觉变换器和大规模语言模型(LLMs),的影响尚不明确。此外,还存在一些特定的关于V:N:M稀疏性的问题,比如如何选择合适的V和M值,仍需解决。在本研究中,我们全面探讨了V:N:M稀疏性在视觉模型和LLMs上的应用,贯穿于多个任务,从下游任务出发。我们提出了三种关键方法来增强V:N:M稀疏变换器的适应性和准确性,包括启发式V和M的选择、V:N:M特定的通道重排和三阶段LoRA训练技术。实验结果表明,通过我们的方法,DeiT-small在64:2:5稀疏性下实现了无损准确性,而DeiT-base在64:2:8稀疏性下也保持了准确性。此外,微调后的LLama2-7B在64:2:5稀疏性下在下游任务上的表现与2:4稀疏无训练版本相当或更好。更重要的是,V:N:M稀疏变换器提供了比2:4稀疏更广泛的加速-准确性权衡范围。总体而言,我们的探索极大地促进了V:N:M稀疏性在成本敏感推理场景中作为真正有效的加速解决方案的作用。