LLM2D
分割与征服:绕过大型语言模型安全过滤器的分段和分布式提示处理
Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing
作者: Johan Wahr\'eus, Ahmed Hussain, Panos Papadimitratos
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21598v1

摘要

arXiv:2503.21598v1 安全过滤器类型: 交叉 摘要: 大型语言模型(LLMs)已在各个领域实现了任务自动化和内容生成,同时集成了安全过滤器以防止滥用。我们提出了一种新颖的脱管框架,该框架结合了分布式提示处理和迭代改进,以绕过这些安全措施,尤其是生成恶意代码。我们的架构包括四个关键模块:提示分割、并行处理、响应聚合和基于LLM的评委评估。在对10个网络安全部门中的500个恶意提示进行测试后,该框架在生成恶意代码方面的成功率为73.2%。值得注意的是,我们的对比分析显示,传统的单一LLM评判者评估高估了成功率(93.8%),而我们的LLM评委系统为73.2%,手动验证确认单一评判者经常接受不完整的实现。此外,我们在减法研究中展示了分布式架构在无分布式方法上提高了12%的成功率,突出了分布式提示处理的有效性以及在评估脱管尝试时采用稳健的评估方法的重要性。