LLM2D
大规模下的安全:大型模型安全综述
Safety at Scale: A Comprehensive Survey of Large Model Safety
作者: Xingjun Ma, Yifeng Gao, Yixu Wang, Ruofan Wang, Xin Wang, Ye Sun, Yifan Ding, Hengyuan Xu, Yunhao Chen, Yunhan Zhao, Hanxun Huang, Yige Li, Jiaming Zhang, Xiang Zheng, Yang Bai, Henghui Ding, Zuxuan Wu, Xipeng Qiu, Jingfeng Zhang, Yiming Li, Jun Sun, Cong Wang, Jindong Gu, Baoyuan Wu, Siheng Chen, Tianwei Zhang, Yang Liu, Mingming Gong, Tongliang Liu, Shirui Pan, Cihang Xie, Tianyu Pang, Yinpeng Dong, Ruoxi Jia, Yang Zhang, Shiqing Ma, Xiangyu Zhang, Neil Gong, Chaowei Xiao, Sarah Erfani, Bo Li, Masashi Sugiyama, Dacheng Tao, James Bailey, Yu-Gang Jiang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05206v1

摘要

arXiv:2502.05206v1 类别: cross 摘要:由大规模预训练卓越的学习和泛化能力推动,大规模模型的快速进展重塑了人工智能(AI)领域的格局。这些模型现在已成为广泛应用程序的基础,包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学研究。然而,它们的广泛应用也使它们面临重大安全风险,引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前大规模模型的安全研究,涵盖了视觉基础模型(VFMs)、大型语言模型(LLMs)、视觉-语言预训练(VLP)模型、视觉-语言模型(VLMs)、扩散模型(DMs)以及基于大型模型的代理。我们的贡献总结如下:(1)我们全面阐述了这些模型的安全威胁分类,包括对抗攻击、数据中毒攻击、后门攻击、监禁攻击和提示注入攻击、能量-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2)如果存在,我们回顾了每种攻击类型所提出的防御策略,并总结了安全研究中常用的数据库和基准。(3)在此基础上,我们识别并讨论了在大规模模型安全方面面临的开放挑战,强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是,我们强调了研究社区和国际协作的必要性。我们的工作可以为研究人员和实践者提供有价值的参考,并促进全面防御系统的持续开发和平台的建设,以保护AI模型的安全。