LLM2D

摘要

自然语言处理（NLP）技术的快速发展导致了诸如ChatGPT和Claude等文本生成工具的广泛应用和有效性。然而，如果这些技术被用于改写剽窃——这是一种在科学文献和一般文本媒体中最隐蔽的滥用内容的形式——则会对各种媒体形式的可信度构成重大风险。尽管已经开发出用于识别改写的自动化方法，但由于用于训练这些方法的数据集的不一致性，检测这种类型的剽窃仍然具有挑战性。在本文中，我们考察了传统和当代的改写识别方法，研究了流行数据集中某些改写类型的代表性不足（包括用于训练大型语言模型（LLMs）的数据集）如何影响检测剽窃的能力。我们引入并验证了一种新的改进的改写类型学（ReParaphrased，REfined PARAPHRASE类型学定义），以更好地理解改写类型表示中的差异。最后，我们提出了未来研究和数据集开发的新方向，以增强基于人工智能的改写检测。