LLM2D

摘要

arXiv:2501.18998v2 通告类型: replace-cross 摘要: 近年来，利用人工智能（AI）的文本生成工具在各个领域偶尔被误用，例如生成学生的报告或创意写作。这一问题促使了剽窃检测服务增强识别AI生成内容的能力。对抗攻击经常用于测试AI文本检测器的稳健性。本文提出了一种新的文本对抗攻击方法，应用于检测模型，如Fast-DetectGPT。该方法利用嵌入模型进行数据扰动，旨在重新构建AI生成的文本以降低检测到文本真实来源的可能性。具体地，我们使用了不同的嵌入技术，包括解释性较强的Tsetlin机（TM），以实现这一目的。通过结合同义词和嵌入相似向量，我们证明了Fast-DetectGPT的检测分数在XSum数据集上从0.4431降至0.2744，在SQuAD数据集上从0.5068降至0.3532的最高水平。