LLM2D
MoJE:混合型越狱专家,以朴素表格分类器作为提示攻击的防护
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks
作者: Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hamed, Ambrish Rawat, Mark Purcell
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.17699v2

摘要

大型语言模型 (LLM) 在各种应用中的普及突出了对强大安全措施的迫切需求,以阻止潜在的越狱攻击。这些攻击利用 LLM 中的漏洞,危及数据完整性和用户隐私。护栏作为抵御此类威胁的关键保护机制,但现有模型在检测准确性和计算效率方面往往不足。本文主张在 LLM 上预防越狱攻击的重要性,并强调输入护栏在保护这些模型中的作用。我们引入了 MoJE(越狱专家混合模型),这是一种新型的护栏架构,旨在超越现有最先进护栏的局限性。通过采用简单的语言统计技术,MoJE 在检测越狱攻击方面表现出色,同时在模型推理过程中保持最小的计算开销。通过严格的实验,MoJE 表明了其优越的性能,能够检测到 90% 的攻击,而不会影响良性提示,从而增强 LLM 抵御越狱攻击的安全性。