LLM2D

摘要

arXiv:2502.15666v2 通知类型: 替换-跨学科摘要：大型语言模型（LLMs）在文本生成中的广泛应用引发了许多关于AI生成内容检测的担忧。然而，被忽视的一个挑战是AI润色文本，即人类撰写的文本通过使用AI工具进行了细微的改进。这引发了一个关键问题：轻微润色的文本是否应被视为AI生成的？这样的分类可能导致虚假的抄袭指控，并误导关于在线内容中AI普及程度的说法。在本研究中，我们使用包含14700个样本的AI润色文本评估（APT-Eval）数据集，系统地评估了十二种最先进的AI文本检测器。我们的研究发现揭示了检测器经常将即使是轻微润色的文本标记为AI生成的，难以区分不同程度的AI参与，并表现出对较老和较小模型的偏见。这些局限性突显了更细致的检测方法的迫切需求。