摘要
arXiv:2502.05206v2 安全类型:replace-cross
摘要:大型模型的迅速发展,得益于其通过大规模预训练学习和泛化能力的卓越表现,重塑了人工智能(AI)的格局。这些模型现在已成为广泛应用场景的基础,包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学发现。然而,它们的广泛应用也使它们面临重大的安全风险,引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前对大型模型安全研究的系统性调查,涵盖了视觉基础模型(VFMs)、大型语言模型(LLMs)、视觉-语言预训练(VLP)模型、视觉-语言模型(VLMs)、扩散模型(DMs)以及基于大型模型的代理。我们的贡献总结如下:(1) 我们提出了一种综合的安全威胁分类,包括对抗攻击、数据污染、后门攻击、突破和提示注入攻击、能源-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2) 如果有提出针对每种攻击的防御策略,我们进行了综述,并总结了常用的数据集和安全研究基准。(3) 在此基础上,我们识别并讨论了大型模型安全领域面临的开放挑战,强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是,我们强调了研究界和国际协作的必要性。我们的工作可以为研究人员和从业人员提供有用的参考,促进全面防御系统和平台的发展,保护AI模型的安全。