LLM2D

摘要

arXiv:2503.21805v1 Announce Type: cross 摘要：训练大型语言模型（LLMs）资源密集且昂贵，因此知识产权（IP）保护至关重要。目前大多数现有的模型指纹方法是在LLMs中注入指纹以保护模型的所有权。这些方法创建的指纹对具有较弱的语义相关性，缺乏正常问答（QA）对在LLMs中存在的上下文连贯性和语义关联性。在本文中，我们提出了一种生成修订干预（GRI）攻击，该攻击可以有效利用这一缺陷来删除指纹，突显了需要更安全的模型指纹方法。因此，我们提出了一种新颖的注入指纹模式，称为隐式指纹（ImF）。ImF 构建强烈的语义相关性指纹对，将其伪装成LLMs内的自然问答对。这确保了指纹与正常模型行为一致，使其难以区分且对抗检测和删除具有鲁棒性。我们在多个LLMs上的实验表明，在对抗条件下，ImF 保持了高验证成功率，提供了一种可靠的方法来保护LLMs的所有权。