LLM2D

摘要

arXiv:2412.11506v2 宣告类型: 替换-交叉摘要: 先进的大语言模型（LLMs）可以生成几乎与人工撰写的文本无法区分的文本，突显了检测LLM生成文本的重要性。然而，当前的零样本技术面临着挑战，因为白盒方法受到限制，只能使用较弱的开源LLM，而黑盒方法则受限于较强的专业LLM的部分观察。似乎不可能让白盒方法使用专有模型，因为模型的API级访问既不提供全面的预测分布，也不提供内部嵌入。为了跨越这一鸿沟，我们提出了一种 **Glimpse** 概率分布估计方法，从部分观察中预测全面的分布。尽管Glimpse方法很简单，但我们成功地将白盒方法如熵、排名、对数排名以及Fast-DetectGPT扩展到了最新的专有模型。实验表明，与开源基线的其余空间相比，Glimpse与Fast-DetectGPT和GPT-3.5结合使用时，在五个最新的源模型中平均AUC-ROC达到约0.95，提高了51%的得分。这表明最新的LLM可以有效检测自己的输出，暗示高级LLM可能是最好的自我防护盾。我们将在 https://github.com/baoguangsheng/glimpse 释放我们的代码和数据。