LLM2D
LLaMA-Adapter:零初始化注意力机制下的高效语言模型微调
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2303.16199v3

摘要

我们提出了LLaMA-Adapter,一种轻量级的适应方法,用于高效地将LLaMA微调为指令跟随模型。通过使用52K条自我指令演示,LLaMA-Adapter仅在冻结的LLaMA 7B模型上引入了1.2M可学习参数,并且在8个A100 GPU上进行微调的时间不到一小时。具体来说,我们采用了一组可学习的适应提示,并将它们前置到更高Transformer层的词标记中。然后,我们提出了一种零初始化的注意力机制,带有零门控,它能够自适应地将新的指令线索注入LLaMA,同时有效地保留其预训练的知识。通过我们的高效训练,LLaMA-Adapter能够生成高质量的响应,与完全微调的7B参数的Alpaca相当。除了语言指令外,我们的方法还可以简单地扩展到多模态指令,用于学习图像条件下的LLaMA模型,在ScienceQA和COCO Caption基准测试中实现了卓越的推理性能。此外,我们还评估了零初始化的注意力机制在其他预训练模型(ViT,RoBERTa)上的微调效果,展示了我们方法的优越泛化能力。代码已在https://github.com/OpenGVLab/LLaMA-Adapter发布。