LLM2D

摘要

arXiv:2505.09974v1 宣告类型: cross 摘要: 将大型语言模型（LLMs）整合到网络安全应用中带来了显著的机会，例如增强威胁分析和恶意软件检测，但也可能引入关键风险和安全顾虑，包括个人数据泄露和自动生成新的恶意软件。本文系统评估了为网络安全应用微调的LLMs的安全风险。基于OWASP Top 10 for LLM Applications框架，我们评估了七款开源LLMs：Phi 3 Mini 3.8B、Mistral 7B、Qwen 2.5 7B、Llama 3 8B、Llama 3.1 8B、Gemma 2 9B和Llama 2 70B。我们的评估结果显示，微调降低了所有测试LLMs的安全弹性（例如，Llama 3.1 8B对抗提示注入的安全评分为0.95降至0.15）。我们提出并评估了一种安全对齐方法，通过精细地重写指令-响应对，明确包含安全预防措施和伦理考量。这种方法表明，在保持甚至提高模型安全性的同时，可以保留技术实用性，提供了一条开发更安全的微调方法的实用途径。本文提供了一种针对LLMs的安全风险的系统评估，有助于在敏感领域更安全地采用生成型AI，并为开发安全、可信赖且伦理对齐的LLMs作出贡献。