LLM2D

摘要

指令微调已成为微调预训练语言模型以更好地遵循人类指令并在各种任务上进行泛化的重要步骤。如今，预训练语言模型越来越大，全参数微调的成本高得惊人。因此，参数高效微调 (PEFT) 作为一种经济高效的指令微调方法应运而生，因为它与全参数微调相比，计算、内存和存储成本大大降低。尽管 PEFT 方法得到了广泛应用，但其巨大的超参数空间、PEFT 方法的数量以及指令微调能力的不同侧重点使得难以理清每个方面的影响。本研究系统地研究了几种具有代表性的 PEFT 方法，调查了超参数选择（包括训练超参数和 PEFT 特定的超参数）的影响，不同模型大小和指令任务数量如何影响性能、任务内分布记忆和开放指令遵循能力。我们的实证研究表明，只有 LoRA 和适配器在理想的训练设置下才能接近全参数微调。理想的训练设置包括适当的学习率、允许的最大 LoRA秩或适配器大小以及多样化的训练任务。另一方面，如果达不到这种理想的训练条件，LoRA 和适配器就会遭受训练不稳定的困扰。此外，LoRA 需要更多任务才能有效地进行未见任务泛化，学习速度较慢。此外，LoRA 的任务级记忆能力较弱。最后，与开放指令微调设置中的微调相比，LoRA 和适配器在复杂推理、编码和长文本生成方面表现不足，但在与适配器相比，它展现出更强的能力。