LLM2D

摘要

由于人工智能（AI）的快速发展以及像模型动物园这样的平台被广泛用于共享 AI 模型，AI 模型被利用的可能性也随之增加。攻击者可以通过隐写术在 AI 模型中嵌入恶意软件，利用这些模型的庞大规模来隐藏恶意数据并将其用于不法目的，例如远程代码执行。确保 AI 模型的安全是新兴的研究领域，对于保护依赖 AI 技术的众多组织和用户至关重要。本研究利用经过充分研究的图像少样本学习技术，通过使用一种新颖的图像表示将 AI 模型转移到图像领域。在这种领域中应用少样本学习使我们能够创建实用的模型，这是以前作品所缺乏的。我们的方法解决了最先进的检测技术中的关键局限性，这些局限性阻碍了它们的实用性。这种方法将所需的训练数据集大小从 40000 个模型减少到只有 6 个。此外，我们的方法始终如一地检测到高达 25% 嵌入率的微妙攻击，在某些情况下甚至高达 6%，而以前的作品只显示出对 100%-50% 嵌入率有效。我们采用严格的评估策略来确保训练后的模型对各种因素具有通用性。此外，我们还表明，我们训练后的模型成功地检测到新颖的扩频隐写攻击，证明了这些模型仅通过学习一种类型的攻击就表现出令人印象深刻的鲁棒性。我们开源了我们的代码以支持可重复性并增强该新领域的研究。