LLM2D

摘要

arXiv:2504.10561v2 公告类型: replace-cross 摘要：持续学习（CL）是一种高级训练范式，在获得新任务期间先前的数据样本保持不可访问。许多研究致力于利用预训练的视觉变换器（ViT）来提高模型在持续学习中的效果。尽管如此，这些方法通常使用单一的、静态的骨干网络，这在处理多种数据领域的新任务时无法充分适应，因为活跃参数的数量很大。本文通过引入一种创新的自我控制动态扩展模型（SCDEM），解决了这一限制，该模型协调多个不同的可训练预训练ViT骨干网络，提供多样且语义丰富的表示。具体而言，通过使用多骨干架构作为共享模块，所提出的SCDEM动态生成一个新的专家，以最少的参数来适应新任务。还引入了一种新颖的合作优化机制（COM），通过利用历史专家的预测信号协同优化多个骨干网络，从而在不抹去先前获得的知识的情况下促进新任务的学习。此外，提出了一种新的特征分布一致性（FDC）方法，通过基于最优传输距离的机制将先前学习和当前学习的表示之间的语义相似性对齐，有效减轻了负知识转移的影响。此外，为进一步缓解过度正则化挑战，本文提出了一种新颖的动态逐层特征注意力机制（DLWFAM），以自主确定每个可训练表示层的惩罚强度。进行了广泛的实验来评估所提出方法的有效性，实证结果表明，该方法达到了最先进的性能。