LLM2D
没有免费的午餐附带约束条件
No Free Lunch with Guardrails
作者: Divyanshu Kumar, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00441v1

摘要

arXiv:2504.00441v1 安全护栏类型: 横向对比 摘要: 随着大型语言模型(LLMs)和生成性AI的广泛采用,安全护栏已成为确保其安全使用的关键工具。然而,增加安全护栏并非没有权衡;强化的安全措施可能会降低实用性,而更具灵活性的系统则可能会为对抗性攻击留下漏洞。在本文中,我们探讨了当前的安全护栏是否在保持实用性的同时有效防止滥用。我们提出了一种框架来评估这些权衡,测量不同安全护栏在权衡风险、安全性和实用性方面的情况,并构建了一个高效的安全护栏。 我们的研究结果证实,安全护栏并非免费的午餐;增强安全性通常会以牺牲实用性为代价。为解决这一问题,我们提出了一个设计更好的安全护栏的蓝图,以在最小化风险的同时保持实用性。我们评估了各种行业安全护栏,包括Azure内容安全、Bedrock安全护栏、OpenAI的审核API、Guardrails AI、Nemo安全护栏以及我们自己定制的安全护栏。此外,我们还评估了GPT-4o、Gemini 2.0-Flash、Claude 3.5-Sonnet和Mistral Large-Latest等LLM在不同系统提示下的反应,包括简单的提示、详细的提示以及带有思维链(CoT)推理的详细提示。我们的研究提供了不同安全护栏性能的清晰比较,并突显了在平衡安全性和实用性方面的挑战。