LLM2D

摘要

arXiv:2505.00843v1 类型: cross 摘要：大规模语言模型（LLMs）在自然语言理解和生成方面表现出卓越的能力，使其在各个领域得到了广泛的应用。然而，它们对提示注入攻击的易感性带来了显著的安全风险，因为敌对输入可以操控模型的行为并覆盖预期的指令。尽管存在许多防御策略，但在适应性敌对场景下严格评估其效果的标准框架仍然缺乏。为了解决这一缺口，我们引入了OET，这是一种基于优化的评估工具包，利用适应性测试框架系统地对来自各种数据集的提示注入攻击和防御进行基准测试。我们的工具包具有模块化的流程，能够促进敌对字符串生成、动态攻击执行和全面的结果分析，提供了一个统一的平台评估对抗鲁棒性。至关重要的是，适应性测试框架利用优化方法，在拥有白盒和黑盒访问的情况下生成最坏情况的敌对样本，因此可以进行严格的红队测试。广泛的实验强调了现有防御机制的局限性，即使在实施安全增强措施后，某些模型仍然容易受到攻击。