LLM2D
大规模安全:大型模型安全综述
Safety at Scale: A Comprehensive Survey of Large Model Safety
作者: Xingjun Ma, Yifeng Gao, Yixu Wang, Ruofan Wang, Xin Wang, Ye Sun, Yifan Ding, Hengyuan Xu, Yunhao Chen, Yunhan Zhao, Hanxun Huang, Yige Li, Jiaming Zhang, Xiang Zheng, Yang Bai, Zuxuan Wu, Xipeng Qiu, Jingfeng Zhang, Yiming Li, Jun Sun, Cong Wang, Jindong Gu, Baoyuan Wu, Siheng Chen, Tianwei Zhang, Yang Liu, Mingming Gong, Tongliang Liu, Shirui Pan, Cihang Xie, Tianyu Pang, Yinpeng Dong, Ruoxi Jia, Yang Zhang, Shiqing Ma, Xiangyu Zhang, Neil Gong, Chaowei Xiao, Sarah Erfani, Bo Li, Masashi Sugiyama, Dacheng Tao, James Bailey, Yu-Gang Jiang
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.05206v2

摘要

arXiv:2502.05206v2 安全类型:replace-cross 摘要:大型模型的迅速发展,得益于其通过大规模预训练学习和泛化能力的卓越表现,重塑了人工智能(AI)的格局。这些模型现在已成为广泛应用场景的基础,包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学发现。然而,它们的广泛应用也使它们面临重大的安全风险,引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前对大型模型安全研究的系统性调查,涵盖了视觉基础模型(VFMs)、大型语言模型(LLMs)、视觉-语言预训练(VLP)模型、视觉-语言模型(VLMs)、扩散模型(DMs)以及基于大型模型的代理。我们的贡献总结如下:(1) 我们提出了一种综合的安全威胁分类,包括对抗攻击、数据污染、后门攻击、突破和提示注入攻击、能源-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2) 如果有提出针对每种攻击的防御策略,我们进行了综述,并总结了常用的数据集和安全研究基准。(3) 在此基础上,我们识别并讨论了大型模型安全领域面临的开放挑战,强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是,我们强调了研究界和国际协作的必要性。我们的工作可以为研究人员和从业人员提供有用的参考,促进全面防御系统和平台的发展,保护AI模型的安全。