摘要
arXiv:2412.11506v2 宣告类型: 替换-交叉
摘要: 先进的大语言模型(LLMs)可以生成几乎与人工撰写的文本无法区分的文本,突显了检测LLM生成文本的重要性。然而,当前的零样本技术面临着挑战,因为白盒方法受到限制,只能使用较弱的开源LLM,而黑盒方法则受限于较强的专业LLM的部分观察。似乎不可能让白盒方法使用专有模型,因为模型的API级访问既不提供全面的预测分布,也不提供内部嵌入。为了跨越这一鸿沟,我们提出了一种 **Glimpse** 概率分布估计方法,从部分观察中预测全面的分布。尽管Glimpse方法很简单,但我们成功地将白盒方法如熵、排名、对数排名以及Fast-DetectGPT扩展到了最新的专有模型。实验表明,与开源基线的其余空间相比,Glimpse与Fast-DetectGPT和GPT-3.5结合使用时,在五个最新的源模型中平均AUC-ROC达到约0.95,提高了51%的得分。这表明最新的LLM可以有效检测自己的输出,暗示高级LLM可能是最好的自我防护盾。我们将在 https://github.com/baoguangsheng/glimpse 释放我们的代码和数据。