摘要
自然语言处理(NLP)技术的快速发展导致了诸如ChatGPT和Claude等文本生成工具的广泛应用和有效性。然而,如果这些技术被用于改写剽窃——这是一种在科学文献和一般文本媒体中最隐蔽的滥用内容的形式——则会对各种媒体形式的可信度构成重大风险。尽管已经开发出用于识别改写的自动化方法,但由于用于训练这些方法的数据集的不一致性,检测这种类型的剽窃仍然具有挑战性。在本文中,我们考察了传统和当代的改写识别方法,研究了流行数据集中某些改写类型的代表性不足(包括用于训练大型语言模型(LLMs)的数据集)如何影响检测剽窃的能力。我们引入并验证了一种新的改进的改写类型学(ReParaphrased,REfined PARAPHRASE类型学定义),以更好地理解改写类型表示中的差异。最后,我们提出了未来研究和数据集开发的新方向,以增强基于人工智能的改写检测。