LLM2D

摘要

深度预训练模型的微调揭示了组合特性，其中多个专门的模块可以任意组合成一个单一的、多任务模型。然而，确定促进组合性的条件仍然是一个开放问题，最近的努力主要集中在线性化网络上。我们进行了一项理论研究，试图通过损失函数的二阶泰勒近似来揭示标准非线性网络中的组合性。提出的公式强调了保持在预训练盆地内的重要性，以实现可组合模块。此外，它为两种对偶增量训练算法提供了基础：一种从单独训练多个模型的角度出发，另一种旨在整体优化组合模型。我们探究了它们在增量分类任务中的应用，并强调了一些有价值的技能。事实上，增量学习的模块池不仅支持创建有效的多任务模型，而且还能够在某些任务中进行遗忘和专门化。