摘要
arXiv:2502.09175v1 声明类型:交叉
摘要:大语言模型(LLMs)的快速发展引入了在调节用户-模型交互方面的重要挑战。尽管LLMs表现出非凡的能力,但它们仍然容易受到对抗性攻击的影响,特别是“破铜烂铁”技术,这些技术能够绕过内容安全措施。当前的内容审核系统主要依赖于输入提示过滤,已 proven 不足,例如,Best-of-N (BoN) 破铜烂铁技术在对抗流行的大语言模型时的成功率达到80%或更高。在本文中,我们介绍了灵活的大语言模型辅助审核引擎(FLAME):这是一种新的方法,将重点从输入过滤转移到输出审核。与传统意义上的断路方法对用户查询进行分析不同,FLAME 评估模型响应,提供了几个关键优势:(1) 在训练和推理方面都具有计算效率,(2) 对 BoN 破铜烂铁攻击的抵抗力更强,以及 (3) 通过可定制的主题过滤,在定义和更新安全标准方面更加灵活。我们的实验表明,FLAME 显著优于当前的审核系统。例如,FLAME 将 GPT-4o-mini 和 DeepSeek-v3 的攻击成功率降低了约9倍,同时保持了低计算开销。我们在各种大语言模型上进行了全面评估,并分析了该引擎相对于最先进的破铜烂铁技术的效率。这项工作为大语言模型开发更 robust 和更具适应性的内容审核系统做出了贡献。