LLM2D
AI生成文本的稳健且细粒度检测
Robust and Fine-Grained Detection of AI Generated Texts
作者: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11952v1

摘要

arXiv:2504.11952v1 通报类型: cross 摘要: 一个理想的机器生成内容检测系统应能够应对日益增多的更先进的LLM。现有的系统在准确识别短文本中的AI生成内容方面常常遇到困难。此外,并非所有的文本都完全由人类或LLM撰写,因此我们更侧重于部分情况,即人类-LLM合著的文本。我们的论文介绍了一套用于标记分类任务的模型,这些模型在广泛的合著人类-机器文本集合上进行了训练,表现出了在未见过的领域、未见过的生成器、非母语作者的文本以及具有对抗性输入的文本方面的优越性。我们还介绍了超过240万条此类文本的新数据集,这些文本主要是由23种不同语言中的多个流行的专有LLM合著的。我们还展示了模型在每个领域和生成器每篇文本上的性能。其他研究发现还包括了与每种对抗方法的性能对比、输入文本长度以及与原始人类撰写的文本相比生成文本的特征。