LLM2D

摘要

低秩自适应（LoRA）因其模块化设计和在 Huggingface 等平台上的广泛可用性，已成为微调大型语言模型（LLM）以适应各种领域的一种流行技术。这种模块化特性激发了人们对组合多个 LoRA 以增强 LLM 能力的兴趣。然而，现有的 LoRA 组合方法主要集中在需要额外训练的任务特定自适应上，而当前的模型合并技术往往无法充分利用 LoRA 的模块化特性，导致参数干扰和性能下降。在本文中，我们研究了以更细粒度的方式拆解和重新组装多个 LoRA 的可行性，类似于组装乐高积木。我们引入了最小语义单元 (MSU) 的概念，其中对应于 LoRA 中每个秩的参数充当独立单元。这些 MSU 表现出置换不变性和连接求和等价性，从而实现灵活的组合以创建新的 LoRA。基于这些见解，我们提出了 LoRA-LEGO 框架。该框架通过将来自不同 LoRA 的 MSU 分组到 $k$ 个集群中来进行秩级参数聚类。每个集群的中心充当代表性 MSU，从而能够组装一个具有 $k$ 个调整秩的合并 LoRA。此外，我们应用了一种双重加权策略来优化合并 LoRA 的规模。在各种基准上的实验表明，我们的方法在 LoRA 合并方面优于现有方法。