LLM2D

摘要

模型融合是一种新兴技术，它将针对不同任务微调的多个模型集成到一个多功能模型中，从而在多个领域表现出色。然而，这种方案也可能带来后门攻击的机会，其中单个恶意模型就可能危及融合模型的完整性。现有工作试图通过假设大量的计算资源来证明此类攻击的风险，重点关注攻击者可以完全微调预训练模型的情况。然而，考虑到机器学习模型规模的不断增大，这种假设可能并不现实。在资源有限且攻击者只能使用低秩自适应（LoRA）等技术来生成恶意模型的实际情况下，攻击是否仍然有效并构成威胁尚不清楚。在这项工作中，我们首先发现，当使用 LoRA 进行微调时，攻击效力会显著降低。然后，我们提出了 LoBAM，这是一种能够以最少的训练资源实现高攻击成功率的方法。LoBAM 的核心思想是以一种巧妙的方式放大恶意权重，从而有效地提高攻击效力。我们通过理论证明和广泛的经验实验，在各种模型融合场景中证明了我们的设计可以提高攻击成功率。此外，我们还表明，我们的方法具有很强的隐蔽性，难以检测。