LLM2D
预览:使白盒方法能够利用 proprietary 模型进行零样本 LLM 生成文本检测
Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection
作者: Guangsheng Bao, Yanbin Zhao, Juncai He, Yue Zhang
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2412.11506v2

摘要

arXiv:2412.11506v2 宣告类型: 替换-交叉 摘要: 先进的大语言模型(LLMs)可以生成几乎与人工撰写的文本无法区分的文本,突显了检测LLM生成文本的重要性。然而,当前的零样本技术面临着挑战,因为白盒方法受到限制,只能使用较弱的开源LLM,而黑盒方法则受限于较强的专业LLM的部分观察。似乎不可能让白盒方法使用专有模型,因为模型的API级访问既不提供全面的预测分布,也不提供内部嵌入。为了跨越这一鸿沟,我们提出了一种 **Glimpse** 概率分布估计方法,从部分观察中预测全面的分布。尽管Glimpse方法很简单,但我们成功地将白盒方法如熵、排名、对数排名以及Fast-DetectGPT扩展到了最新的专有模型。实验表明,与开源基线的其余空间相比,Glimpse与Fast-DetectGPT和GPT-3.5结合使用时,在五个最新的源模型中平均AUC-ROC达到约0.95,提高了51%的得分。这表明最新的LLM可以有效检测自己的输出,暗示高级LLM可能是最好的自我防护盾。我们将在 https://github.com/baoguangsheng/glimpse 释放我们的代码和数据。