LLM2D

摘要

arXiv:2503.21928v1 类别: cross 摘要：大规模机器学习（ML）模型在教育、信贷、招聘、医疗保健、刑事司法等领域被越来越多地用于关键领域。然而，这些模型的训练、部署和利用需要大量的计算资源。为了降低计算和内存成本，在文献中广泛使用了稀疏权重矩阵的机器学习模型。在稀疏模型中，具有特殊稀疏结构的模型（例如，块式稀疏权重矩阵的模型）更适合硬件加速器，并且可以在推断过程中降低内存和计算成本。不幸的是，尽管有许多高效的训练方法，但没有一种方法专门用于高效训练块式稀疏模型。因此，当前训练块式稀疏模型的方法都是从全连接的密集模型开始的，这会导致训练效率低下。在这项工作中，我们专注于训练具有**块式稀疏矩阵**的模型，并提出一个高效的训练算法，在训练和推理过程中同时降低计算和内存成本。此外，我们将证明我们提出的方法使我们在训练过程中能够高效地找到适合稀疏模式的最佳块大小。我们的广泛实证和理论分析表明，与基线相比，我们的算法可以在不降低性能的情况下显著减少计算和内存成本。