LLM2D

摘要

arXiv:2505.00624v1 交叉公告类型摘要：从头训练大型语言模型（LLMs）需要大量的计算资源，推动了开发更小、专用领域的LLMs的兴趣，以保持效率和强大的任务性能。中型模型如LLaMA等为领域特定的适应提供了起点，但它们在针对专门数据集进行测试时往往会出现准确性下降的问题。我们介绍了FineScope，这是一种从大型预训练模型中提取紧凑、领域优化LLM的框架。FineScope 利用了稀疏自编码器（SAE）框架，受到其生成可解释特征表示的能力启发，从大型数据集提取领域特定的子集。我们应用了结构剪枝，并结合领域特定的约束条件，确保剪枝后的模型保留了目标领域的关键知识。为了进一步提升性能，这些剪枝后的模型经过自我数据蒸馏，利用SAE挑选的数据集恢复剪枝过程中丢失的关键领域信息。广泛的实验和消融研究表明，FineScope 实现了高度竞争的性能，在特定领域任务中超过了多个大规模的先进LLM。此外，我们的结果显示，FineScope 使经过SAE挑选的数据集微调的剪枝模型能够重新获得原始性能的一部分。进一步将这些数据集应用于未剪枝的预训练LLM的微调也提高了其领域特定的准确性，突显了我们方法的稳健性。代码将在稍后发布。