LLM2D

摘要

深度神经网络（DNN）巨大的经济价值促使人工智能企业保护其模型的知识产权（IP）。最近，训练证明（PoT）被提出作为一种很有前景的DNN IP保护解决方案，通过它，人工智能企业可以利用DNN训练过程的记录作为其所有权证明。为了防止攻击者伪造所有权证明，安全的PoT方案应该能够区分诚实训练记录和攻击者伪造的训练记录。虽然现有的PoT方案提供了各种区分标准，但这些标准都是基于直觉或观察。这些标准的有效性缺乏清晰而全面的分析，导致最初被认为安全的现有方案很快就被简单的想法所破坏。在本文中，我们首次尝试以形式化方法的方式识别区分标准，以便可以明确地证明其有效性。具体来说，我们进行系统建模以涵盖各种攻击，然后从理论上分析诚实训练记录和伪造训练记录之间的区别。分析结果不仅推导出一个通用的区分标准，而且还提供了详细的推理来证明其在防御我们模型所涵盖的攻击方面的有效性。在该标准的指导下，我们提出了一种通用的PoT构造，可以实例化为具体的方案。这种构造揭示了轨迹匹配算法（之前用于数据蒸馏）在PoT构造中具有显著优势。实验结果表明，我们的方案可以抵抗已经破坏了现有PoT方案的攻击，这证实了它在安全性方面的优越性。