LLM2D

摘要

arXiv:2502.05206v1 类别: cross 摘要：由大规模预训练卓越的学习和泛化能力推动，大规模模型的快速进展重塑了人工智能（AI）领域的格局。这些模型现在已成为广泛应用程序的基础，包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学研究。然而，它们的广泛应用也使它们面临重大安全风险，引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前大规模模型的安全研究，涵盖了视觉基础模型（VFMs）、大型语言模型（LLMs）、视觉-语言预训练（VLP）模型、视觉-语言模型（VLMs）、扩散模型（DMs）以及基于大型模型的代理。我们的贡献总结如下：（1）我们全面阐述了这些模型的安全威胁分类，包括对抗攻击、数据中毒攻击、后门攻击、监禁攻击和提示注入攻击、能量-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。（2）如果存在，我们回顾了每种攻击类型所提出的防御策略，并总结了安全研究中常用的数据库和基准。（3）在此基础上，我们识别并讨论了在大规模模型安全方面面临的开放挑战，强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是，我们强调了研究社区和国际协作的必要性。我们的工作可以为研究人员和实践者提供有价值的参考，并促进全面防御系统的持续开发和平台的建设，以保护AI模型的安全。