LLM2D

摘要

我们研究了将预训练的大语言模型扩展到训练时未见过的全新领域的问题，例如添加一种原始模型没有或很少训练数据的语言。微调或低秩自适应等流行解决方案在领域自适应方面取得了成功，但从形式上讲，它们没有增加任何额外的容量，并且会降低原始领域的性能。本文从数据、架构和训练过程三个角度分析了这种扩展问题，这三个角度有利于联合考虑。特别是，我们改进了适配器，并使学习全新的语言成为可能，同时确保神经网络在原始领域的输出几乎保持不变。为此，我们以一种方式修改了新的残差块，使得每个新的残差块在原始领域输出接近零。这种中性残差的解决方案借鉴了专家混合的架构组件，非常有效：与仅用英语训练的原始模型相比，我们只增加了 20% 的可学习权重，就获得了比现有方法（微调、低秩或普通适配器）在学习新语言和不遗忘英语之间的权衡方面明显更好的结果。