LLM2D

摘要

arXiv:2504.00441v1 安全护栏类型: 横向对比摘要: 随着大型语言模型(LLMs)和生成性AI的广泛采用，安全护栏已成为确保其安全使用的关键工具。然而，增加安全护栏并非没有权衡；强化的安全措施可能会降低实用性，而更具灵活性的系统则可能会为对抗性攻击留下漏洞。在本文中，我们探讨了当前的安全护栏是否在保持实用性的同时有效防止滥用。我们提出了一种框架来评估这些权衡，测量不同安全护栏在权衡风险、安全性和实用性方面的情况，并构建了一个高效的安全护栏。我们的研究结果证实，安全护栏并非免费的午餐；增强安全性通常会以牺牲实用性为代价。为解决这一问题，我们提出了一个设计更好的安全护栏的蓝图，以在最小化风险的同时保持实用性。我们评估了各种行业安全护栏，包括Azure内容安全、Bedrock安全护栏、OpenAI的审核API、Guardrails AI、Nemo安全护栏以及我们自己定制的安全护栏。此外，我们还评估了GPT-4o、Gemini 2.0-Flash、Claude 3.5-Sonnet和Mistral Large-Latest等LLM在不同系统提示下的反应，包括简单的提示、详细的提示以及带有思维链(CoT)推理的详细提示。我们的研究提供了不同安全护栏性能的清晰比较，并突显了在平衡安全性和实用性方面的挑战。