LLM2D

摘要

arXiv:2502.05206v2 安全类型：replace-cross 摘要：大型模型的迅速发展，得益于其通过大规模预训练学习和泛化能力的卓越表现，重塑了人工智能（AI）的格局。这些模型现在已成为广泛应用场景的基础，包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学发现。然而，它们的广泛应用也使它们面临重大的安全风险，引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前对大型模型安全研究的系统性调查，涵盖了视觉基础模型（VFMs）、大型语言模型（LLMs）、视觉-语言预训练（VLP）模型、视觉-语言模型（VLMs）、扩散模型（DMs）以及基于大型模型的代理。我们的贡献总结如下：(1) 我们提出了一种综合的安全威胁分类，包括对抗攻击、数据污染、后门攻击、突破和提示注入攻击、能源-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2) 如果有提出针对每种攻击的防御策略，我们进行了综述，并总结了常用的数据集和安全研究基准。(3) 在此基础上，我们识别并讨论了大型模型安全领域面临的开放挑战，强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是，我们强调了研究界和国际协作的必要性。我们的工作可以为研究人员和从业人员提供有用的参考，促进全面防御系统和平台的发展，保护AI模型的安全。