LLM2D

摘要

arXiv:2409.13501v1 公告类型: 交叉摘要: 微调预训练语言模型以适应下游任务在自然语言处理中取得了显著成果。然而，由于模型参数规模的迅速增加，微调所有参数变得不切实际。为此，参数高效微调（PEFT）方法仅更新参数的子集。大多数PEFT方法，如LoRA，使用增量更新，即将学习到的权重矩阵增量添加到原始参数中。尽管有效，这些方法在捕捉复杂的参数动态方面存在局限性，并且无法保持原始参数与更新参数之间的强相关性。为了克服这些挑战，我们提出了直接更新变换（UT）范式，该范式直接从原始参数构建到更新参数的变换。这种方法确保了原始参数与更新参数之间的相关性得以保留，并利用了预训练期间学习到的语义特征。在此范式的基础上，我们提出了Hadamard更新变换（HUT）方法。HUT通过使用两个低秩矩阵的Hadamard变换高效地更新原始权重矩阵，提供了一种更具表现力和灵活性的更新机制。这使得HUT能够通过功能变换捕捉更丰富的参数特征，同时降低计算复杂性并保持或提高模型质量。理论分析和在RoBERTa和GPT-2上的广泛实验验证了HUT的有效性。结果表明，HUT在模型质量方面与其他PEFT方法相当或更优，同时显著降低了计算复杂性。