LLM2D

摘要

arXiv:2501.18998v1 类别：交叉学科摘要：近年来，利用人工智能（AI）的文本生成工具在各个领域偶尔被误用，例如生成学生报告或创造性写作。这一问题促使了剽窃检测服务提升其识别AI生成内容的能力。通常使用对抗性攻击来测试AI文本检测器的鲁棒性。本工作提出了一种针对检测模型（如Fast-DetectGPT）的新型文本对抗攻击方法。该方法利用嵌入模型进行数据扰动，旨在重构AI生成的文本以降低检测其真实来源的可能性。具体来说，我们采用了不同的嵌入技术，包括解释性机器学习中的Tsetlin机（TM），以实现这一目的。通过结合同义词和嵌入相似向量，我们展示了相比于Fast-DetectGPT，最先进的检测分数降低。特别地，在XSum数据集中，检测分数从0.4431降至0.2744 AUROC，而在SQuAD数据集中，则从0.5068降至0.3532 AUROC。