LLM2D

摘要

arXiv:2504.21190v1 Announce Type: cross 摘要：我们提出了张量训练低秩适配专家混合（TT-LoRA MoE）这一新颖的计算框架，该框架结合了参数高效微调（PEFT）与稀疏MoE路由，以应对大规模模型部署中的可扩展性挑战。与传统MoE方法不同，后者在专家数量增加时面临显著的计算 overhead，TT-LoRA MoE 将训练过程分解为两个独立且优化的阶段。首先，我们独立训练轻量级的张量化低秩适配器（TT-LoRA专家），每个适配器专门针对特定任务。随后，这些专家适配器保持冻结状态，从而在多任务设置中消除任务间干扰并防止灾难性遗忘。一个单独训练的稀疏MoE路由器根据输入动态利用基础模型表示，选择每个输入的精确一个专门的适配器，实现了无需显式指定任务的专家选择自动化。全面的实验验证了我们的架构保持了低秩适配器的内存效率，可以无缝扩展到大型专家池，并实现稳健的任务级优化。这种结构化的解耦显著提升了计算效率和灵活性：仅使用LoRA参数的2%，适配器参数的0.3%，以及适配器融合参数的0.03%，并在多任务场景中比适配器融合高出4个值，使得其实用且可扩展的多任务推理部署成为可能。