LLM2D
AGATE:隐蔽的黑盒水印技术用于多模态模型版权保护
AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection
作者: Jianbo Gao, Keke Gai, Jing Yu, Liehuang Zhu, Qi Wu
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21044v1

摘要

arXiv:2504.21044v1 宣告类型: 交叉 摘要: 近期大规模人工智能(AI)模型的发展使得多模态服务成为AI系统的基础,使它们成为模型盗窃的主要目标。现有的方法通过选择异常分布(Out-of-Distribution, OoD)数据作为后门水印,并重新训练原始模型以进行版权保护。然而,现有的方法容易被对手进行恶意检测和伪造,从而导致水印逃避。在本文中,我们提出了模型无感知的黑盒后门水印框架(AGATE)以解决多模态模型版权保护中的隐身性和鲁棒性挑战。具体而言,我们提出了一种对抗触发生成方法,从普通数据集中生成隐身的对抗触发,提供视觉保真度的同时引发语义转变。为了解决模型输出中的异常检测问题,我们提出了一种后变换模块,通过缩小对抗触发图像嵌入和文本嵌入之间的距离来纠正模型输出。随后,我们提出了两阶段水印验证方法,通过比较带有和不带变换模块的结果来判断当前模型是否侵权。最终,我们在五个数据集的多模态图像-文本检索和图像分类下游任务中一致地优于最先进的方法。此外,我们在两种对抗攻击场景下验证了AGATE的鲁棒性。