LLM2D
LoBAM:基于LoRA的模型融合后门攻击
LoBAM: LoRA-Based Backdoor Attack on Model Merging
作者: Ming Yin, Jingyang Zhang, Jingwei Sun, Minghong Fang, Hai Li, Yiran Chen
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.16746v1

摘要

模型融合是一种新兴技术,它将针对不同任务微调的多个模型集成到一个多功能模型中,从而在多个领域表现出色。然而,这种方案也可能带来后门攻击的机会,其中单个恶意模型就可能危及融合模型的完整性。现有工作试图通过假设大量的计算资源来证明此类攻击的风险,重点关注攻击者可以完全微调预训练模型的情况。然而,考虑到机器学习模型规模的不断增大,这种假设可能并不现实。在资源有限且攻击者只能使用低秩自适应(LoRA)等技术来生成恶意模型的实际情况下,攻击是否仍然有效并构成威胁尚不清楚。在这项工作中,我们首先发现,当使用 LoRA 进行微调时,攻击效力会显著降低。然后,我们提出了 LoBAM,这是一种能够以最少的训练资源实现高攻击成功率的方法。LoBAM 的核心思想是以一种巧妙的方式放大恶意权重,从而有效地提高攻击效力。我们通过理论证明和广泛的经验实验,在各种模型融合场景中证明了我们的设计可以提高攻击成功率。此外,我们还表明,我们的方法具有很强的隐蔽性,难以检测。