摘要
arXiv:2505.00976v1 类型: cross
摘要:大规模语言模型(LLMs)已成为众多自然语言处理任务的中心,但它们的漏洞带来了重大的安全和伦理挑战。这一系统性综述探讨了LLMs攻击和防御技术的发展现状。我们将攻击分类为对抗性提示攻击、优化攻击、模型盗窃以及对LLM应用的攻击,详细描述了它们的机制和影响。随后,我们分析了防御策略,包括预防性和检测性的防御方法。尽管取得了一定进展,但仍面临适应动态威胁环境、平衡易用性和鲁棒性以及在防御实施中应对资源限制的挑战。我们指出了开放性问题,包括需要适应性可扩展的防御、可解释的安全技术以及标准化的评估框架。本综述提供了关于开发安全和健壮的LLMs的可操作见解和方向,强调跨学科合作和伦理考量在实际应用中减少风险的重要性。