LLM2D
深度学习中的释义识别:数据集和方法综述
Paraphrase Identification with Deep Learning: A Review of Datasets and Methods
作者: Chao Zhou (Department of Computer Science, Syracuse University), Cheng Qiu (School of Arts,Science, Vanderbilt University), Lizhen Liang (School of Information Studies, Syracuse University), Daniel E. Acuna (Department of Computer Science, University of Colorado at Boulder)
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2212.06933v3

摘要

自然语言处理(NLP)技术的快速发展导致了诸如ChatGPT和Claude等文本生成工具的广泛应用和有效性。然而,如果这些技术被用于改写剽窃——这是一种在科学文献和一般文本媒体中最隐蔽的滥用内容的形式——则会对各种媒体形式的可信度构成重大风险。尽管已经开发出用于识别改写的自动化方法,但由于用于训练这些方法的数据集的不一致性,检测这种类型的剽窃仍然具有挑战性。在本文中,我们考察了传统和当代的改写识别方法,研究了流行数据集中某些改写类型的代表性不足(包括用于训练大型语言模型(LLMs)的数据集)如何影响检测剽窃的能力。我们引入并验证了一种新的改进的改写类型学(ReParaphrased,REfined PARAPHRASE类型学定义),以更好地理解改写类型表示中的差异。最后,我们提出了未来研究和数据集开发的新方向,以增强基于人工智能的改写检测。