摘要
arXiv:2412.11517v2 Announce Type: replace-cross
摘要:随着大型语言模型(LLMs)生成的人类般的文本越来越多,人们对AI生成文本(AIGT)副作用的担忧也在增加。因此,研究人员开发了检测AIGT的方法。然而,仍然存在两个挑战。首先,检测黑盒LLMs的性能较低,因为现有模型主要关注概率特征。其次,大多数AIGT检测器仅在单候选设置下进行了测试,假设我们已知AIGT的来源,这可能与实际情况有所偏差。为了解决这些挑战,我们提出了DART,它包括四个步骤:重写、语义解析、评分和多类分类。我们进行了三项实验以测试DART的表现。实验结果显示,DART可以区分多个不依赖概率特征的黑盒LLMs以及AIGT的来源。