LLM2D
ImF: 隐式指纹大语言模型
ImF: Implicit Fingerprint for Large Language Models
作者: Wu jiaxuan, Peng Wanli, Fu hang, Xue Yiming, Wen juan
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.21805v1

摘要

arXiv:2503.21805v1 Announce Type: cross 摘要:训练大型语言模型(LLMs)资源密集且昂贵,因此知识产权(IP)保护至关重要。目前大多数现有的模型指纹方法是在LLMs中注入指纹以保护模型的所有权。这些方法创建的指纹对具有较弱的语义相关性,缺乏正常问答(QA)对在LLMs中存在的上下文连贯性和语义关联性。在本文中,我们提出了一种生成修订干预(GRI)攻击,该攻击可以有效利用这一缺陷来删除指纹,突显了需要更安全的模型指纹方法。因此,我们提出了一种新颖的注入指纹模式,称为隐式指纹(ImF)。ImF 构建强烈的语义相关性指纹对,将其伪装成LLMs内的自然问答对。这确保了指纹与正常模型行为一致,使其难以区分且对抗检测和删除具有鲁棒性。我们在多个LLMs上的实验表明,在对抗条件下,ImF 保持了高验证成功率,提供了一种可靠的方法来保护LLMs的所有权。