摘要
arXiv:2505.09974v1 宣告类型: cross
摘要: 将大型语言模型(LLMs)整合到网络安全应用中带来了显著的机会,例如增强威胁分析和恶意软件检测,但也可能引入关键风险和安全顾虑,包括个人数据泄露和自动生成新的恶意软件。本文系统评估了为网络安全应用微调的LLMs的安全风险。基于OWASP Top 10 for LLM Applications框架,我们评估了七款开源LLMs:Phi 3 Mini 3.8B、Mistral 7B、Qwen 2.5 7B、Llama 3 8B、Llama 3.1 8B、Gemma 2 9B和Llama 2 70B。我们的评估结果显示,微调降低了所有测试LLMs的安全弹性(例如,Llama 3.1 8B对抗提示注入的安全评分为0.95降至0.15)。我们提出并评估了一种安全对齐方法,通过精细地重写指令-响应对,明确包含安全预防措施和伦理考量。这种方法表明,在保持甚至提高模型安全性的同时,可以保留技术实用性,提供了一条开发更安全的微调方法的实用途径。本文提供了一种针对LLMs的安全风险的系统评估,有助于在敏感领域更安全地采用生成型AI,并为开发安全、可信赖且伦理对齐的LLMs作出贡献。