摘要
arXiv:2505.00624v1 交叉公告类型
摘要:从头训练大型语言模型(LLMs)需要大量的计算资源,推动了开发更小、专用领域的LLMs的兴趣,以保持效率和强大的任务性能。中型模型如LLaMA等为领域特定的适应提供了起点,但它们在针对专门数据集进行测试时往往会出现准确性下降的问题。我们介绍了FineScope,这是一种从大型预训练模型中提取紧凑、领域优化LLM的框架。FineScope 利用了稀疏自编码器(SAE)框架,受到其生成可解释特征表示的能力启发,从大型数据集提取领域特定的子集。我们应用了结构剪枝,并结合领域特定的约束条件,确保剪枝后的模型保留了目标领域的关键知识。为了进一步提升性能,这些剪枝后的模型经过自我数据蒸馏,利用SAE挑选的数据集恢复剪枝过程中丢失的关键领域信息。广泛的实验和消融研究表明,FineScope 实现了高度竞争的性能,在特定领域任务中超过了多个大规模的先进LLM。此外,我们的结果显示,FineScope 使经过SAE挑选的数据集微调的剪枝模型能够重新获得原始性能的一部分。进一步将这些数据集应用于未剪枝的预训练LLM的微调也提高了其领域特定的准确性,突显了我们方法的稳健性。代码将在稍后发布。