LLM2D
用于持续学习的软Transformer
Soft-TransFormers for Continual Learning
作者: Haeyong Kang, Chang D. Yoo
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16073v1

摘要

受优良初始化彩票假设(WLTH)的启发,该假设提供了次优微调解决方案,我们提出了一种新颖的全微调持续学习(CL)方法,称为 Soft-TransFormers (Soft-TF)。Soft-TF 顺序学习并为每个任务选择一个最优的软网络或子网络。在 CL 的顺序训练过程中,Soft-TF 联合优化稀疏层的权重以获得任务自适应的软(实值)网络或子网络(二元掩码),同时保持预训练的层参数冻结。在推理过程中,Soft-TF 识别出的任务自适应网络会掩盖预训练网络的参数,为每个任务映射到最优解,并最大限度地减少灾难性遗忘 (CF)——软掩码保留了预训练网络的知识。在 Vision Transformer (ViT) 和 CLIP 上进行的大量实验证明了 Soft-TF 的有效性,在各种 CL 场景(包括类增量学习 (CIL) 和任务增量学习 (TIL))中实现了最先进的性能,并得到了收敛理论的支持。