LLM2D

摘要

arXiv:2411.03171v3 通知类型: 交叉替换摘要: 近年来，动态稀疏训练(DST)作为一种后训练剪枝的替代方案，在生成高效模型方面崭露头角。原则上，DST能够在整个训练过程中保持稀疏性，从而实现更高效的内存使用。然而，当前的DST实现未能充分利用这一点。由于在GPU上稀疏矩阵乘法远不如密集矩阵乘法高效，大多数实现是通过掩码权重来模拟稀疏性。在本文中，我们利用近期在结构化稀疏训练方面的进展，在分类任务中应用DST，其中内存效率至关重要。当标签空间可能包含数百万个候选标签时，分类层本身将消耗数GB的内存。从密集层转变为固定扇入的稀疏层，并通过稀疏进化训练(SET)进行更新，尽管这在较大标签空间下严重阻碍了训练收敛。我们发现，从稀疏分类器到密集文本编码器的梯度流不佳，使得难以学习良好的输入表示。通过引入中间层或添加辅助训练目标，我们可以恢复大部分密集模型的一般化性能。总体而言，我们在一个具有高度偏斜标签分布且与典型的DST基准数据集差异很大的具有挑战性的域中展示了DST的适用性和实际优势，这使得使用商用硬件在数百万标签上进行端到端训练成为可能。