摘要
arXiv:2501.18998v1 类别:交叉学科
摘要:近年来,利用人工智能(AI)的文本生成工具在各个领域偶尔被误用,例如生成学生报告或创造性写作。这一问题促使了剽窃检测服务提升其识别AI生成内容的能力。通常使用对抗性攻击来测试AI文本检测器的鲁棒性。本工作提出了一种针对检测模型(如Fast-DetectGPT)的新型文本对抗攻击方法。该方法利用嵌入模型进行数据扰动,旨在重构AI生成的文本以降低检测其真实来源的可能性。具体来说,我们采用了不同的嵌入技术,包括解释性机器学习中的Tsetlin机(TM),以实现这一目的。通过结合同义词和嵌入相似向量,我们展示了相比于Fast-DetectGPT,最先进的检测分数降低。特别地,在XSum数据集中,检测分数从0.4431降至0.2744 AUROC,而在SQuAD数据集中,则从0.5068降至0.3532 AUROC。