LLM2D
在极端导航中:大型输出空间中的动态稀疏性
Navigating Extremes: Dynamic Sparsity in Large Output Spaces
作者: Nasib Ullah, Erik Schultheis, Mike Lasby, Yani Ioannou, Rohit Babbar
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2411.03171v3

摘要

arXiv:2411.03171v3 通知类型: 交叉替换 摘要: 近年来,动态稀疏训练(DST)作为一种后训练剪枝的替代方案,在生成高效模型方面崭露头角。原则上,DST能够在整个训练过程中保持稀疏性,从而实现更高效的内存使用。然而,当前的DST实现未能充分利用这一点。由于在GPU上稀疏矩阵乘法远不如密集矩阵乘法高效,大多数实现是通过掩码权重来模拟稀疏性。在本文中,我们利用近期在结构化稀疏训练方面的进展,在分类任务中应用DST,其中内存效率至关重要。当标签空间可能包含数百万个候选标签时,分类层本身将消耗数GB的内存。从密集层转变为固定扇入的稀疏层,并通过稀疏进化训练(SET)进行更新,尽管这在较大标签空间下严重阻碍了训练收敛。我们发现,从稀疏分类器到密集文本编码器的梯度流不佳,使得难以学习良好的输入表示。通过引入中间层或添加辅助训练目标,我们可以恢复大部分密集模型的一般化性能。总体而言,我们在一个具有高度偏斜标签分布且与典型的DST基准数据集差异很大的具有挑战性的域中展示了DST的适用性和实际优势,这使得使用商用硬件在数百万标签上进行端到端训练成为可能。