LLM2D

摘要

深度神经网络 (DNN) 具有巨大的经济价值，促使人工智能企业保护其模型的知识产权 (IP)。最近，训练证明 (PoT) 被提出作为一种有前景的 DNN IP 保护解决方案，通过该方案，人工智能企业可以利用 DNN 训练过程的记录作为其所有权证明。为了防止攻击者伪造所有权证明，安全的 PoT 方案应该能够区分攻击者伪造的诚实训练记录和伪造的训练记录。虽然现有的 PoT 方案提供了各种区分标准，但这些标准是基于直觉或观察。这些标准的有效性缺乏清晰而全面的分析，导致最初被认为安全的现有方案被简单想法迅速破坏。在本文中，我们首次以形式化方法的方式识别区分标准，以便可以明确证明其有效性。具体而言，我们进行系统建模以涵盖各种攻击，然后从理论上分析诚实训练记录和伪造训练记录之间的区别。分析结果不仅引入了通用区分标准，还提供了详细的推理来证明其在防御我们模型涵盖的攻击方面的有效性。在该标准的指导下，我们提出了一种通用的 PoT 结构，可以实例化为具体的方案。这种结构揭示了轨迹匹配算法（以前用于数据蒸馏）在 PoT 结构中具有显著优势的认识。实验结果表明，我们的方案可以抵抗已破坏现有 PoT 方案的攻击，这证实了其在安全方面的优越性。