LLM2D

摘要

arXiv:2410.15236v2 标题类型: replace-cross 摘要: 大型语言模型(LLMs)通过推动自然语言理解和生成，改变了人工智能，使其在医疗保健、软件工程和对话系统等领域的应用成为可能。尽管在过去的几年里取得了这些进展，LLMs 显示出相当大的漏洞，特别是针对提示注入和禁锢攻击。本文综述了这些漏洞的研究现状，并介绍了可用的防御策略。我们大致将攻击方法分为基于提示的、基于模型的、跨模态的和多语言的，涵盖了诸如对抗性提示、后门注入和跨模态利用等技术。我们还回顾了各种防御机制，包括提示过滤、转换、对齐技术、多智能体防御和自我调节等，评估了它们的优缺点。我们还讨论了用于评估LLM安全性和鲁棒性的关键指标和基准，指出了挑战，如在交互环境中攻击成功率的量化以及现有数据集中的偏见。确定当前研究缺口后，我们建议未来工作应在更具弹性的对齐策略、对抗新型攻击的先进防御、禁锢检测的自动化以及伦理和社会影响方面进行。本文强调了人工智能社区内持续研究和合作的重要性，以提高LLM的安全性和确保其安全部署。