摘要
arXiv:2501.18998v2 通告类型: replace-cross
摘要: 近年来,利用人工智能(AI)的文本生成工具在各个领域偶尔被误用,例如生成学生的报告或创意写作。这一问题促使了剽窃检测服务增强识别AI生成内容的能力。对抗攻击经常用于测试AI文本检测器的稳健性。本文提出了一种新的文本对抗攻击方法,应用于检测模型,如Fast-DetectGPT。该方法利用嵌入模型进行数据扰动,旨在重新构建AI生成的文本以降低检测到文本真实来源的可能性。具体地,我们使用了不同的嵌入技术,包括解释性较强的Tsetlin机(TM),以实现这一目的。通过结合同义词和嵌入相似向量,我们证明了Fast-DetectGPT的检测分数在XSum数据集上从0.4431降至0.2744,在SQuAD数据集上从0.5068降至0.3532的最高水平。