LLM2D

摘要

arXiv:2502.09175v1 声明类型：交叉摘要：大语言模型（LLMs）的快速发展引入了在调节用户-模型交互方面的重要挑战。尽管LLMs表现出非凡的能力，但它们仍然容易受到对抗性攻击的影响，特别是“破铜烂铁”技术，这些技术能够绕过内容安全措施。当前的内容审核系统主要依赖于输入提示过滤，已 proven 不足，例如，Best-of-N (BoN) 破铜烂铁技术在对抗流行的大语言模型时的成功率达到80%或更高。在本文中，我们介绍了灵活的大语言模型辅助审核引擎（FLAME）：这是一种新的方法，将重点从输入过滤转移到输出审核。与传统意义上的断路方法对用户查询进行分析不同，FLAME 评估模型响应，提供了几个关键优势：(1) 在训练和推理方面都具有计算效率，(2) 对 BoN 破铜烂铁攻击的抵抗力更强，以及 (3) 通过可定制的主题过滤，在定义和更新安全标准方面更加灵活。我们的实验表明，FLAME 显著优于当前的审核系统。例如，FLAME 将 GPT-4o-mini 和 DeepSeek-v3 的攻击成功率降低了约9倍，同时保持了低计算开销。我们在各种大语言模型上进行了全面评估，并分析了该引擎相对于最先进的破铜烂铁技术的效率。这项工作为大语言模型开发更 robust 和更具适应性的内容审核系统做出了贡献。