摘要
arXiv:2504.21190v1 Announce Type: cross
摘要:我们提出了张量训练低秩适配专家混合(TT-LoRA MoE)这一新颖的计算框架,该框架结合了参数高效微调(PEFT)与稀疏MoE路由,以应对大规模模型部署中的可扩展性挑战。与传统MoE方法不同,后者在专家数量增加时面临显著的计算 overhead,TT-LoRA MoE 将训练过程分解为两个独立且优化的阶段。首先,我们独立训练轻量级的张量化低秩适配器(TT-LoRA专家),每个适配器专门针对特定任务。随后,这些专家适配器保持冻结状态,从而在多任务设置中消除任务间干扰并防止灾难性遗忘。一个单独训练的稀疏MoE路由器根据输入动态利用基础模型表示,选择每个输入的精确一个专门的适配器,实现了无需显式指定任务的专家选择自动化。全面的实验验证了我们的架构保持了低秩适配器的内存效率,可以无缝扩展到大型专家池,并实现稳健的任务级优化。这种结构化的解耦显著提升了计算效率和灵活性:仅使用LoRA参数的2%,适配器参数的0.3%,以及适配器融合参数的0.03%,并在多任务场景中比适配器融合高出4个值,使得其实用且可扩展的多任务推理部署成为可能。