LLM2D

摘要

arXiv:2501.08878v2 宣告类型: replace-cross 摘要：连续学习旨在开发一种能够逐步吸收新信息并保持先前知识的模型。然而，现有的研究主要集中在简单的学习环境中，其中所有数据样本均来自单一数据域。本文将注意力转向一个更加复杂和现实的学习环境，在这种环境中，数据样本来源于多个不同的域。我们通过引入一种新颖的方法——多源动态扩展模型（MSDEM），利用各种预训练模型作为基础，并逐步在此基础上建立新的专家模型以适应新兴任务来应对这一复杂的挑战。此外，我们提出了一种创新的动态扩展注意力机制，该机制能够选择性地利用多个基础模型中的知识，从而加速新任务的学习。同时，我们引入了一种动态图权重路由器，能够有策略地重用所有先前获取的参数和表征，以优化对新任务学习的知识转移效果，进一步提高泛化性能。我们进行了全面的实验，实证结果表明，我们提出的方法达到了最佳性能。