摘要
arXiv:2502.05206v1 类别: cross
摘要:由大规模预训练卓越的学习和泛化能力推动,大规模模型的快速进展重塑了人工智能(AI)领域的格局。这些模型现在已成为广泛应用程序的基础,包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学研究。然而,它们的广泛应用也使它们面临重大安全风险,引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前大规模模型的安全研究,涵盖了视觉基础模型(VFMs)、大型语言模型(LLMs)、视觉-语言预训练(VLP)模型、视觉-语言模型(VLMs)、扩散模型(DMs)以及基于大型模型的代理。我们的贡献总结如下:(1)我们全面阐述了这些模型的安全威胁分类,包括对抗攻击、数据中毒攻击、后门攻击、监禁攻击和提示注入攻击、能量-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2)如果存在,我们回顾了每种攻击类型所提出的防御策略,并总结了安全研究中常用的数据库和基准。(3)在此基础上,我们识别并讨论了在大规模模型安全方面面临的开放挑战,强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是,我们强调了研究社区和国际协作的必要性。我们的工作可以为研究人员和实践者提供有价值的参考,并促进全面防御系统的持续开发和平台的建设,以保护AI模型的安全。