摘要
数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而,数据集在构建过程中往往会无意中包含噪声数据。为了纠正这个问题,人们做了很多尝试,例如使用人工标注员。然而,雇佣和管理人工标注员既昂贵又耗时。作为替代方案,最近的研究正在探索使用大型语言模型 (LLM) 进行数据标注。本研究提供了一个案例研究,将基于 LLM 的数据标注应用扩展到通过清理策略来提高现有数据集的质量。具体来说,我们利用思维链和多数投票等方法来模拟人工标注,并从广泛用于多文档摘要任务的多新闻数据集 (Multi-News) 中识别无关文档。通过我们提出的清理方法,我们引入了增强的 Multi-News+。通过利用 LLM 进行数据清理,我们展示了一种高效且有效的方法来提高数据集质量,而无需依赖昂贵的人工标注工作。