LLM2D

摘要

arXiv:2409.14285v1 公告类型: 交叉摘要: 尽管大型语言模型（LLMs）在各个领域展现出显著的实用性，但它们同时也容易被用于不道德的目的，包括学术不端和传播虚假信息。因此，AI生成文本检测系统应运而生，成为一种应对措施。然而，这些检测机制在面对规避技术时表现出脆弱性，并且对文本操作缺乏鲁棒性。本文引入回译作为一种新颖的规避检测技术，强调了增强当前检测系统鲁棒性的必要性。所提出的方法涉及通过多种语言翻译AI生成文本，然后再回译为英语。我们提出了一种模型，该模型结合这些回译文本生成原始AI生成文本的操纵版本。我们的研究结果表明，操纵后的文本保留了原始语义，同时显著降低了现有检测方法的真阳性率（TPR）。我们在九种AI检测器上评估了这一技术，包括六种开源系统和三种专有系统，揭示了它们对回译操纵的脆弱性。针对现有AI文本检测器的不足，我们提出了一种增强鲁棒性的应对措施。我们的结果显示，在回译操纵后，所提出方法的真阳性率仅下降了1.85%。此外，我们构建了一个包含72万条文本的大型数据集，使用了八种不同的LLMs。我们的数据集包含不同领域和写作风格的人类创作文本和LLM生成文本，以评估我们的方法和现有检测器的性能。该数据集已公开共享，以造福研究社区。