LLM2D
FLAME: 灵活的LLM辅助审核引擎
FLAME: Flexible LLM-Assisted Moderation Engine
作者: Ivan Bakulin (AIRI, Moscow Institute of Physics and Technology), Ilia Kopanichuk (AIRI, Moscow Institute of Physics and Technology), Iaroslav Bespalov (AIRI), Nikita Radchenko (SberHealth), Vladimir Shaposhnikov (AIRI, Skolkovo Institute of Science and Technology), Dmitry Dylov (AIRI, Skolkovo Institute of Science and Technology), Ivan Oseledets (AIRI, Skolkovo Institute of Science and Technology)
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09175v1

摘要

arXiv:2502.09175v1 声明类型:交叉 摘要:大语言模型(LLMs)的快速发展引入了在调节用户-模型交互方面的重要挑战。尽管LLMs表现出非凡的能力,但它们仍然容易受到对抗性攻击的影响,特别是“破铜烂铁”技术,这些技术能够绕过内容安全措施。当前的内容审核系统主要依赖于输入提示过滤,已 proven 不足,例如,Best-of-N (BoN) 破铜烂铁技术在对抗流行的大语言模型时的成功率达到80%或更高。在本文中,我们介绍了灵活的大语言模型辅助审核引擎(FLAME):这是一种新的方法,将重点从输入过滤转移到输出审核。与传统意义上的断路方法对用户查询进行分析不同,FLAME 评估模型响应,提供了几个关键优势:(1) 在训练和推理方面都具有计算效率,(2) 对 BoN 破铜烂铁攻击的抵抗力更强,以及 (3) 通过可定制的主题过滤,在定义和更新安全标准方面更加灵活。我们的实验表明,FLAME 显著优于当前的审核系统。例如,FLAME 将 GPT-4o-mini 和 DeepSeek-v3 的攻击成功率降低了约9倍,同时保持了低计算开销。我们在各种大语言模型上进行了全面评估,并分析了该引擎相对于最先进的破铜烂铁技术的效率。这项工作为大语言模型开发更 robust 和更具适应性的内容审核系统做出了贡献。