LLM2D

摘要

arXiv:2505.00976v1 类型: cross 摘要：大规模语言模型（LLMs）已成为众多自然语言处理任务的中心，但它们的漏洞带来了重大的安全和伦理挑战。这一系统性综述探讨了LLMs攻击和防御技术的发展现状。我们将攻击分类为对抗性提示攻击、优化攻击、模型盗窃以及对LLM应用的攻击，详细描述了它们的机制和影响。随后，我们分析了防御策略，包括预防性和检测性的防御方法。尽管取得了一定进展，但仍面临适应动态威胁环境、平衡易用性和鲁棒性以及在防御实施中应对资源限制的挑战。我们指出了开放性问题，包括需要适应性可扩展的防御、可解释的安全技术以及标准化的评估框架。本综述提供了关于开发安全和健壮的LLMs的可操作见解和方向，强调跨学科合作和伦理考量在实际应用中减少风险的重要性。