LLM2D

摘要

利用小型语言模型生成特定领域的文本内容面临着挑战，尤其是在处理多个不同数据集且重叠度很低的情况下。本研究探讨了使小型语言模型能够针对两个不同领域（故事数据集 A 和食谱数据集 B）生成连贯且相关输出的方法。初步实验表明，分别在每个数据集上训练模型可以取得令人满意的结果，每个模型都能在其领域内生成适当的内容。我们发现，与使用通用分词器相比，使用针对每个数据集定制的分词器可以显著提高生成质量。尝试使用低秩自适应 (LoRA) 或标准微调将单个模型适应到这两个领域并未产生实质性结果，通常无法生成有意义的输出。此外，在不冻结模型现有权重的情况下进行完全微调会导致灾难性遗忘，即模型会丢失先前学到的信息，只保留来自新数据的知识。为了克服这些挑战，我们采用了一种知识扩展策略：仅使用额外的参数进行训练。这种方法使模型能够根据要求生成故事和食谱，有效地处理多个领域，而不会遭受灾难性遗忘。我们的研究结果表明，使用冻结层进行知识扩展是小型语言模型跨不同数据集生成特定领域内容的有效方法。这项工作有助于高效的多领域语言模型的开发，并为管理小型架构中的灾难性遗忘提供了见解。