摘要
arXiv:2504.00441v2 安全护栏类型: 替换交叉
摘要: 随着大型语言模型(LLMs)和生成性AI的广泛应用,安全护栏已成为确保其安全使用的关键工具。然而,在添加安全护栏的同时也不可避免地会产生权衡;加强安全措施可能会降低易用性,而更具灵活性的系统可能会留下对抗性攻击的漏洞。在这项工作中,我们探索了当前的安全护栏是否能够在维护实用性的前提下有效地防止滥用。我们提出了一种评估这些权衡的框架,衡量不同安全护栏在风险、安全性和易用性之间的平衡,并构建了一个高效的安全护栏。
我们的研究结果证实,在安全护栏方面没有免费的午餐;加强安全性往往需要牺牲易用性。为了解决这一问题,我们提出了一个设计更好的安全护栏的蓝图,以最小化风险同时保持易用性。我们评估了多种行业安全护栏,包括Azure内容安全性、Bedrock安全护栏、OpenAI的审核API、Guardrails AI、Nemo安全护栏和Enkrypt AI安全护栏。此外,我们还评估了GPT-4o、Gemini 2.0-Flash、Claude 3.5-Sonnet和Mistral Large-Latest等LLM在不同系统提示下的响应,包括简单的提示、详细的提示以及带有步骤推理(CoT)的详细提示。我们的研究提供了一个清晰的安全护栏性能对比,突出了在平衡安全性和易用性方面的挑战。