摘要
arXiv:2502.12445v1 安全类型:新
摘要:人工智能安全是一个迅速增长的研究领域,旨在防止前沿人工智能技术的伤害和滥用,特别是生成型人工智能(GenAI)工具的滥用,这些工具能够通过文本提示生成逼真和高质量的内容。这类工具包括大型语言模型(LLMs)和文本到图像(T2I)扩散模型。随着各种领先的GenAI模型的性能接近饱和,主要是由于相似的训练数据来源和神经网络架构设计,开发可靠的安全部署措施已成为责任感和可持续性的关键区别点。本文提出了计算安全概念的形式化,这是一种数学框架,通过信号处理理论和方法的视角,使人们能够对GenAI中的安全性挑战进行定量评估、建模和研究。特别是,我们探讨了两个可以作为假设检验问题形式化的计算安全挑战类别。对于模型输入的安全性,我们展示了敏感性分析和损失景观分析如何用于检测带有 Jailbreak 尝试的恶意提示。对于模型输出的安全性,我们阐明了如何使用统计信号处理和对抗学习来检测人工智能生成的内容。最后,我们讨论了关键的开放研究挑战、机会以及信号处理在计算人工智能安全中的核心作用。