LLM2D

摘要

受优良初始化彩票假设（WLTH）的启发，该假设提供了次优微调解决方案，我们提出了一种新颖的全微调持续学习（CL）方法，称为 Soft-TransFormers (Soft-TF)。Soft-TF 顺序学习并为每个任务选择一个最优的软网络或子网络。在 CL 的顺序训练过程中，Soft-TF 联合优化稀疏层的权重以获得任务自适应的软（实值）网络或子网络（二元掩码），同时保持预训练的层参数冻结。在推理过程中，Soft-TF 识别出的任务自适应网络会掩盖预训练网络的参数，为每个任务映射到最优解，并最大限度地减少灾难性遗忘 (CF)——软掩码保留了预训练网络的知识。在 Vision Transformer (ViT) 和 CLIP 上进行的大量实验证明了 Soft-TF 的有效性，在各种 CL 场景（包括类增量学习 (CIL) 和任务增量学习 (TIL)）中实现了最先进的性能，并得到了收敛理论的支持。