LLM2D

摘要

arXiv:2504.21044v1 宣告类型: 交叉摘要: 近期大规模人工智能（AI）模型的发展使得多模态服务成为AI系统的基础，使它们成为模型盗窃的主要目标。现有的方法通过选择异常分布（Out-of-Distribution, OoD）数据作为后门水印，并重新训练原始模型以进行版权保护。然而，现有的方法容易被对手进行恶意检测和伪造，从而导致水印逃避。在本文中，我们提出了模型无感知的黑盒后门水印框架（AGATE）以解决多模态模型版权保护中的隐身性和鲁棒性挑战。具体而言，我们提出了一种对抗触发生成方法，从普通数据集中生成隐身的对抗触发，提供视觉保真度的同时引发语义转变。为了解决模型输出中的异常检测问题，我们提出了一种后变换模块，通过缩小对抗触发图像嵌入和文本嵌入之间的距离来纠正模型输出。随后，我们提出了两阶段水印验证方法，通过比较带有和不带变换模块的结果来判断当前模型是否侵权。最终，我们在五个数据集的多模态图像-文本检索和图像分类下游任务中一致地优于最先进的方法。此外，我们在两种对抗攻击场景下验证了AGATE的鲁棒性。