LLM2D

摘要

arXiv:2410.16135v2 宣告类型: replace-cross 摘要: 到目前为止，2:4稀疏性是唯一一种可以在GPU上利用稀疏张量内核加速的稀疏模式。实践中，2:4稀疏性往往只能带来较低的实际加速比（$\leq 1.3$），并且需要固定稀疏比例，这意味着其他比例，如4:8、8:16，或超过50%稀疏性的情况，在GPU上不会带来任何加速。最近的研究表明，V:N:M稀疏性在解决2:4稀疏性这些局限性方面颇具前景。然而，关于准确性方面，V:N:M稀疏性对更广泛的变换器模型，如视觉变换器和大规模语言模型（LLMs），的影响尚不明确。此外，还存在一些特定的关于V:N:M稀疏性的问题，比如如何选择合适的V和M值，仍需解决。在本研究中，我们全面探讨了V:N:M稀疏性在视觉模型和LLMs上的应用，贯穿于多个任务，从下游任务出发。我们提出了三种关键方法来增强V:N:M稀疏变换器的适应性和准确性，包括启发式V和M的选择、V:N:M特定的通道重排和三阶段LoRA训练技术。实验结果表明，通过我们的方法，DeiT-small在64:2:5稀疏性下实现了无损准确性，而DeiT-base在64:2:8稀疏性下也保持了准确性。此外，微调后的LLama2-7B在64:2:5稀疏性下在下游任务上的表现与2:4稀疏无训练版本相当或更好。更重要的是，V:N:M稀疏变换器提供了比2:4稀疏更广泛的加速-准确性权衡范围。总体而言，我们的探索极大地促进了V:N:M稀疏性在成本敏感推理场景中作为真正有效的加速解决方案的作用。