LLM2D

摘要

arXiv:2501.02406v3 宣告类型：替换-交叉摘要：验证内容的来源对于许多组织的功能至关重要，例如教育机构、社交媒体平台、公司等。随着由大型语言模型（LLMs）生成的文本几乎无法与人类生成的内容区分开来，这一问题变得日益具有挑战性。此外，许多机构使用内部的LLMs，并且希望确保外部未经许可的LLMs不会在该机构中生成内容。我们回答了以下问题：给定一段文本，我们能否识别它是由LLM A还是LLM B（其中B可以是人类）生成的？我们将LLM生成的文本视为完全依赖于历史的序贯随机过程，并设计零样本统计测试来区分（i）由不同两组LLM A（内部的）和B（未经许可的）生成的文本，以及（ii）LLM生成的文本和人类生成的文本。我们证明了我们的测试的第一类和第二类错误随着文本长度的增加呈指数级减少。在为给定字符串设计我们的测试时，我们演示了如果字符串是由评估模型A生成的，那么在字符串长度下该字符串在A下的对数困惑度将收敛于该字符串在A下的平均熵，概率偏差为字符串长度的指数级小。我们还展示了如果B生成了文本，在字符串长度下该字符串在A下的对数困惑度将收敛于B和A的平均交叉熵，概率偏差为字符串长度的指数级小。在我们的实验中：首先，我们使用开源的LLMs进行实验以支持我们的理论结果，然后在对抗攻击的情况下提供了黑盒设置中的实验。实际上，我们的工作使确定有害或虚假LLM生成文本的来源成为可能，这有助于打击误导性信息并符合新兴AI法规。