LLM2D
Multi-News+: 基于大语言模型的数据标注实现成本高效的数据集清理
Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2404.09682v2

摘要

数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而,数据集在构建过程中往往会无意中包含噪声数据。尽管已经有许多尝试通过人工注释来纠正这个问题,但雇佣和管理人工注释员既昂贵又耗时。作为一种替代方法,最近的研究正在探索使用大型语言模型(LLMs)进行数据注释。在这项研究中,我们展示了一个案例研究,扩展了基于LLM的数据注释的应用,通过清洗策略来提升现有数据集的质量。具体而言,我们利用链式思维和多数投票等方法来模仿人工注释,并对广泛用于多文档摘要任务的Multi-News数据集中的无关文档进行分类。通过我们提出的清洗方法,我们引入了一个增强版的Multi-News+。通过使用LLMs进行数据清洗,我们展示了一种高效且有效的提高数据集质量的方法,而无需依赖昂贵的人工注释工作。