LLM2D
针对AI生成文本检测模型的 adversarial 攻击:一种基于嵌入表示的 token 概率方法
Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings
作者: Ahmed K. Kadhim, Lei Jiao, Rishad Shafik, Ole-Christoffer Granmo
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18998v1

摘要

arXiv:2501.18998v1 类别:交叉学科 摘要:近年来,利用人工智能(AI)的文本生成工具在各个领域偶尔被误用,例如生成学生报告或创造性写作。这一问题促使了剽窃检测服务提升其识别AI生成内容的能力。通常使用对抗性攻击来测试AI文本检测器的鲁棒性。本工作提出了一种针对检测模型(如Fast-DetectGPT)的新型文本对抗攻击方法。该方法利用嵌入模型进行数据扰动,旨在重构AI生成的文本以降低检测其真实来源的可能性。具体来说,我们采用了不同的嵌入技术,包括解释性机器学习中的Tsetlin机(TM),以实现这一目的。通过结合同义词和嵌入相似向量,我们展示了相比于Fast-DetectGPT,最先进的检测分数降低。特别地,在XSum数据集中,检测分数从0.4431降至0.2744 AUROC,而在SQuAD数据集中,则从0.5068降至0.3532 AUROC。