LLM2D
ESPERANTO:评估合成短语以增强文本来源AI检测的鲁棒性
ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14285v1

摘要

arXiv:2409.14285v1 公告类型: 交叉 摘要: 尽管大型语言模型(LLMs)在各个领域展现出显著的实用性,但它们同时也容易被用于不道德的目的,包括学术不端和传播虚假信息。因此,AI生成文本检测系统应运而生,成为一种应对措施。然而,这些检测机制在面对规避技术时表现出脆弱性,并且对文本操作缺乏鲁棒性。本文引入回译作为一种新颖的规避检测技术,强调了增强当前检测系统鲁棒性的必要性。所提出的方法涉及通过多种语言翻译AI生成文本,然后再回译为英语。我们提出了一种模型,该模型结合这些回译文本生成原始AI生成文本的操纵版本。我们的研究结果表明,操纵后的文本保留了原始语义,同时显著降低了现有检测方法的真阳性率(TPR)。我们在九种AI检测器上评估了这一技术,包括六种开源系统和三种专有系统,揭示了它们对回译操纵的脆弱性。针对现有AI文本检测器的不足,我们提出了一种增强鲁棒性的应对措施。我们的结果显示,在回译操纵后,所提出方法的真阳性率仅下降了1.85%。此外,我们构建了一个包含72万条文本的大型数据集,使用了八种不同的LLMs。我们的数据集包含不同领域和写作风格的人类创作文本和LLM生成文本,以评估我们的方法和现有检测器的性能。该数据集已公开共享,以造福研究社区。