arXiv:2412.05139v4 类型: replace-cross
摘要:大型语言模型的普及引发了对其误用日益增长的关注,特别是在AI生成的文本被错误地归因给人类作者的情况下。机器生成内容检测器声称在各种条件下有效识别此类文本,并且可以从任何语言模型中识别。本文通过评估几种流行的检测器(RADAR、Wild、T5Sentinel、Fast-DetectGPT、PHD、LogRank、Binoculars)在这些检测器之前未遇到的各种领域、数据集和模型上,对这些声明进行了批判性评估。我们采用各种提示策略来模拟实际的对抗性攻击,证明即使是适度的努力也能显著规避检测。我们强调在特定假阳性率下的真正阳性率(TPR@FPR)指标的重要性,并展示了这些检测器在某些设置中的表现不佳,
[email protected] 低至 0%。我们的研究结果表明,无论是经过训练的还是零样本的检测器,在保持高灵敏度的同时实现合理的真正阳性率方面都存在困难。