LLM2D

摘要

使用小型语言模型生成特定领域的内容面临着挑战，尤其是在处理多个不同数据集且重叠度很低的情况下。在本研究中，我们探索了使小型语言模型能够为两个不同领域生成连贯且相关的输出的方法：故事（数据集 A）和食谱（数据集 B）。我们的初步实验表明，对每个数据集分别训练模型可以产生令人满意的结果，每个模型在其领域内生成适当的内容。我们发现，与使用通用分词器相比，使用针对每个数据集定制的分词器可以显著提高生成质量。使用低秩自适应（LoRA）或标准微调将单个模型适应两个领域的方法并未产生实质性结果，通常无法产生有意义的输出。此外，对模型的现有权重不进行冻结的全面微调会导致灾难性遗忘，即模型会丢失先前学习的信息，并且只保留来自新数据的信息。为了克服这些挑战，我们采用了一种知识扩展策略：仅使用额外的参数进行训练。这种方法使模型能够根据要求生成故事和食谱，有效地处理多个领域，而不会遭受灾难性遗忘。我们的发现表明，使用冻结层的知识扩展是一种有效的方法，使小型语言模型能够跨不同数据集生成特定领域的内容。这项工作有助于开发高效的多领域语言模型，并提供有关在小型架构中管理灾难性遗忘的见解。