LLM2D

摘要

arXiv:2504.05357v1 交叉类型: 跨学科摘要: 马车票假说（LTH）提出，存在一个稀疏子网络（又称作胜利票），在从头开始训练时，它可以像其过参数化对应网络一样进行泛化。寻找胜利票的常见方法是通过迭代剪枝（IP）保留原始的强泛化性，并通过将剪枝得到的稀疏掩码应用于未训练网络，转移对其学习泛化有用的有用信息。然而，现有的IP方法仍然难以将它们的观察结果泛化到非随机初始化和小型架构或数据集，或者通过将掩码应用于已训练权重而不是初始化权重来绕过这些挑战。在本文中，我们证明参数符号配置在向任何随机初始化的网络传递有用的泛化信息方面起着关键作用。通过线性模式连通性分析，我们观察到，通过现有ID策略训练的稀疏网络可以保留其吸引子盆地，只要其参数符号和归一化层参数得以保留。为了更接近找到胜利票，我们通过阻止从使用我们方法训练的稀疏网络到其具有初始化归一化层参数的对应网络之间线性路径上的高错误屏障，减轻对归一化层参数的依赖。有趣的是，无论架构和数据集如何，我们观察到，任何随机初始化的网络都可以通过继承其稀疏性和参数符号信息，优化为具有从我们方法训练的稀疏网络到低错误屏障的线性路径，有可能实现与原始网络相当的性能。代码可在https://github.com/JungHunOh/AWS\_ICLR2025.git获取。