LLM2D

摘要

arXiv:2404.13425v3 宣告类型: replace-cross 摘要：视觉-语言模型（VLMs）在人工智能通用智能（AGI）的进步中发挥着重要作用。随着AGI的快速演进，安全问题的应对已成为VLMs面临的最重大挑战之一。在本文中，我们进行了广泛的实验，揭示了传统对VLMs进行适应方法的漏洞，并突出显示了重要的安全风险。此外，随着VLMs的规模扩大，传统对抗性适应技术的应用会带来巨大的计算成本。为了解决这些问题，我们提出了一种基于低秩适应的高效对抗性适应方法，称为**AdvLoRA**。我们研究并揭示了对抗性适应中固有的低秩特性。与LoRA不同，我们通过引入一种新的参数重参数化方法，结合参数聚类和对齐，提高了对抗性适应的效率和稳健性。此外，我们提出了一种自适应参数更新策略，进一步增强了稳健性。这些创新使我们的AdvLoRA能够在模型安全和资源浪费问题上发挥作用。广泛的实验验证了AdvLoRA的有效性和效率。