LLM2D

摘要

大型语言模型 (LLM) 在各种应用中的激增突出了对健壮安全措施的迫切需求，以阻止潜在的越狱攻击。这些攻击利用 LLM 中的漏洞，危害数据完整性和用户隐私。护栏作为抵御此类威胁的关键保护机制，但现有模型在检测准确性和计算效率方面往往存在不足。本文主张在 LLM 上进行越狱攻击预防的重要性，并强调输入护栏在保护这些模型中的作用。我们介绍了 MoJE（混合越狱专家），这是一种新颖的护栏架构，旨在超越现有最先进护栏的当前局限性。通过采用简单的语言统计技术，MoJE 在检测越狱攻击方面表现出色，同时在模型推理期间保持最小的计算开销。通过严格的实验，MoJE 表明了优越的性能，能够检测到 90% 的攻击，而不会影响良性提示，从而增强了 LLM 抵御越狱攻击的安全性。