LLM2D
大型语言模型中的逃逸和漏洞缓解
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models
作者: Benji Peng, Keyu Chen, Qian Niu, Ziqian Bi, Ming Liu, Pohsun Feng, Tianyang Wang, Lawrence K. Q. Yan, Yizhu Wen, Yichao Zhang, Caitlyn Heqi Yin
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2410.15236v2

摘要

arXiv:2410.15236v2 标题类型: replace-cross 摘要: 大型语言模型(LLMs)通过推动自然语言理解和生成,改变了人工智能,使其在医疗保健、软件工程和对话系统等领域的应用成为可能。尽管在过去的几年里取得了这些进展,LLMs 显示出相当大的漏洞,特别是针对提示注入和禁锢攻击。本文综述了这些漏洞的研究现状,并介绍了可用的防御策略。我们大致将攻击方法分为基于提示的、基于模型的、跨模态的和多语言的,涵盖了诸如对抗性提示、后门注入和跨模态利用等技术。我们还回顾了各种防御机制,包括提示过滤、转换、对齐技术、多智能体防御和自我调节等,评估了它们的优缺点。我们还讨论了用于评估LLM安全性和鲁棒性的关键指标和基准,指出了挑战,如在交互环境中攻击成功率的量化以及现有数据集中的偏见。确定当前研究缺口后,我们建议未来工作应在更具弹性的对齐策略、对抗新型攻击的先进防御、禁锢检测的自动化以及伦理和社会影响方面进行。本文强调了人工智能社区内持续研究和合作的重要性,以提高LLM的安全性和确保其安全部署。