LLM2D
GenBFA:针对LLMs的位翻转攻击的进化优化方法
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs
作者: Sanjay Das, Swastik Bhattacharya, Souvik Kundu, Shamik Kundu, Anand Menon, Arnab Raha, Kanad Basu
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2411.13757v2

摘要

arXiv:2411.13757v2 通告类型: replace-cross 摘要:大型语言模型(LLMs)已经彻底改变了自然语言处理(NLP),在文本生成和总结等任务中表现优异。然而,它们在关键任务应用中的日益广泛应用引发了对基于硬件的安全威胁的关注,特别是位翻转攻击(Bit-Flip Attacks,BFA)。BFA 可以通过诸如行锤击(Rowhammer)等故障注入方法实现,针对内存中的模型参数,从而破坏模型的完整性和性能。在 LLMs 的庞大参数空间中识别对 BFA 至关重要的参数面临着重大挑战。虽然先前的研究表明,基于 Transformer 的架构相对于传统深层神经网络来说更不易受到 BFA 的影响,但我们挑战了这种假设。首次,我们证明,在具有数十亿参数的 LLM 中,仅仅三个位翻转就可以导致灾难性的性能下降。当前的 BFA 技术由于高效地在庞大参数空间中识别关键参数的难度而无法充分利用这一漏洞。为了解决这一问题,我们提出了 AttentionBreaker,一种专门为 LLMs 设计的新框架,能够高效地遍历参数空间以识别关键参数。此外,我们引入了 GenBFA,这是一种进化优化策略,旨在进一步细化搜索,隔离最核心的位,以实现高效且有效的攻击。实验证明,AttentionBreaker 在揭露和利用 LLM 架构中的关键漏洞方面具有显著的效果。例如,在 LLaMA3-8B-Instruct 8 位量化(W8)模型中,仅仅三个位翻转(总计参数的 4.129 x 10^-9%)就导致完全的性能崩溃:在 MMLU 任务上的准确性从 67.3% 降至 0%,而维基文本困惑度则从 12.6 上升至 4.72 x 10^5。这些发现突显了 AttentionBreaker 在揭示和利用 LLM 架构中关键漏洞方面的有效性。