摘要
arXiv:2502.12743v1 交叉公告类型:cross
摘要:大规模语言模型(LLMs)在生成类人类文本方面展现了令人印象深刻的能力,但这种LLM生成文本的潜在滥用引发了区分人类生成内容和LLM生成内容的必要性。本文探讨了基于LLM的LLM生成文本检测和解释能力,特别是在二元分类任务(人类生成文本 vs LLM生成文本)和三元分类任务(人类生成文本、LLM生成文本和未决)的背景下。通过对六种不同规模的闭源/开源LLMs进行评估,我们的发现表明,虽然自我检测始终优于跨检测,即LLM能够更准确地检测自己生成的文本而非其他LLM生成的文本,但自我检测的表现仍然远未达到理想水平,这表明还需要进一步改进。我们还展示了将二元分类任务扩展到包含新类别“未决”的三元分类任务,可以提高检测准确性和解释质量,改进在所有LLMs中都是统计上显著且一致的。最后,我们对解释错误进行了全面的定性和定量分析,这些错误被归类为三种类型:依赖不准确特征(最频繁的错误)、幻觉和不正确的推理。带有我们的人工标注数据集的这些发现强调了进一步研究以提高自我检测和自我解释能力的必要性,特别是需要解决可能导致泛化问题的过拟合问题。