LLM2D

摘要

arXiv:2505.08327v1 宣告类型: cross 摘要: 持续学习（CL）旨在训练模型能够在不忘记先前获得的知识的情况下学习一系列任务。CL 中的核心挑战是在保持对旧任务的性能（稳定性）和适应新任务（可塑性）之间取得平衡。最近，由于其同时支持这两方面的能力，大型预训练模型在CL中得到广泛应用，为其带来了在新任务中强大的一般化能力和防止遗忘的韧性。然而，在推断时其高计算成本限制了其在现实应用中的实用性，尤其是在需要低延迟或能效的应用中。为解决这一问题，我们探索了包括剪枝和知识蒸馏（KD）在内的模型压缩技术，并提出了两种针对类别增量学习（CIL）的高效框架，这是一种在推断时任务身份不可用的具有挑战性的CL设置。基于剪枝的框架包括预剪枝和后剪枝策略，在不同的训练阶段应用压缩。基于KD的框架采用教师-学生架构，其中大型预训练教师将与下游任务相关的重要知识传输给更紧凑的学生。在多个CIL基准上的大量实验表明，所提出框架在准确性和推理复杂性之间取得了更好的权衡，能够一致地优于强大的基线。我们进一步分析了这两种框架在准确性和效率方面的权衡，并为它们在不同场景中的使用提供了见解。