摘要
arXiv:2404.13425v2 宣告类型: replace-cross
摘要:视觉-语言模型(VLMs)在人工智能通用智能(AGI)的发展中扮演着至关重要的角色。随着AGI的迅速发展,如何应对安全问题已成为VLMs面临的最大挑战之一。在本文中,我们进行了大量实验,揭示了传统VLMs适应方法的脆弱性,强调了重要的安全风险。此外,随着VLMs规模的增长,传统对抗适应技术的应用会带来巨大的计算成本。为了解决这些问题,我们基于低秩适应提出了一种参数高效的对抗适应方法,称为**AdvLoRA**。我们探讨并揭示了VLMs对抗适应中存在的固有低秩特性。与LoRA不同,我们通过引入一种新的参数重新参数化方法来增强对抗适应的效率和鲁棒性,该方法利用了参数聚类和对齐。此外,我们还提出了一种自适应参数更新策略,进一步增强了鲁棒性。这些创新使我们的AdvLoRA能够在模型安全和资源浪费方面减轻问题。大量的实验验证了AdvLoRA的有效性和效率。