LLM2D

摘要

arXiv:2503.20800v1 Announce Type: cross 摘要：鉴于标度规律，许多人工智能机构正加大努力，以高质量的人类数据为基础构建先进的AI系统。然而，为了保持竞争力，一些机构在不经意间或故意使用未经授权的数据（如涉及隐私或知识产权的内容）进行AI训练，这侵犯了数据所有者的权利。更糟糕的是，这些先进的AI服务通常基于不透明的云平台构建，这限制了在AI训练和推理过程中对内部信息的访问，只允许生成的输出用于证据分析。因此，尽管各国都引入了法律框架以保护数据权利，但在现代不透明的AI应用程序中发现数据滥用的证据仍然是一项重大挑战。在这篇论文中，受到同位素在化学反应中追踪元素能力的启发，我们介绍了信息同位素的概念，并阐述了它们在不透明AI系统中追踪训练数据的性质。此外，我们提出了一种信息同位素追踪方法，旨在通过检测AI生成中目标信息同位素的存在来识别并提供未经授权数据使用的证据。我们在十个AI模型（包括GPT-4o、Claude-3.5和DeepSeek）和四个基准数据集（医疗数据、版权书籍和新闻）的关键领域进行了实验。结果显示，通过检查相当于一篇研究论文长度的数据条目，我们的方法可以以99%的准确性和显著的证据（p值<0.001）区分训练数据集和非训练数据集。这些发现显示了我们的工作作为一个包容性工具的潜力，可以帮助包括缺乏AI专业知识的个体在快速发展的AI研究与应用时代保护其数据权利。