LLM2D

摘要

arXiv:2502.07276v1 类别: cross 摘要：高质量的开源数据集需要大量的努力进行整理，已成为深度学习迅速进步的主要催化剂。同时，保护这些数据集对于数据所有者的利益至关重要。数据集所有权验证在此领域中成为了一种关键方法，但现有的方法通常局限于监督模型，无法直接扩展到越来越流行的无监督预训练模型。在本文中，我们提出了一种针对自监督预训练模型的第一种数据集所有权验证方法，该方法通过对比学习进行设计。其主要目标是确定可疑的黑盒主干模型是否在特定的未标记数据集上进行了预训练，帮助数据所有者维护其权益。我们提出的方法源于我们的经验洞察，即当模型使用目标数据集进行训练时，嵌入空间内的单例和双例实例关系显示出与没有目标数据集进行训练的模型相比显著的差异。我们通过多个对比预训练模型（包括SimCLR、BYOL、SimSiam、MOCO v3和DINO）对该方法进行了验证。结果显示，我们的方法能够以p值远低于0.05的显著性水平拒绝原假设，超过了所有以前的方法。我们的代码可以在https://github.com/xieyc99/DOV4CL获取。