LLM2D

摘要

数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而，数据集在构建过程中往往会无意中包含噪声数据。为了纠正这个问题，人们做了很多尝试，例如使用人工标注员。然而，雇佣和管理人工标注员既昂贵又耗时。作为替代方案，最近的研究正在探索使用大型语言模型 (LLM) 进行数据标注。本研究提供了一个案例研究，将基于 LLM 的数据标注应用扩展到通过清理策略来提高现有数据集的质量。具体来说，我们利用思维链和多数投票等方法来模拟人工标注，并从广泛用于多文档摘要任务的多新闻数据集 (Multi-News) 中识别无关文档。通过我们提出的清理方法，我们引入了增强的 Multi-News+。通过利用 LLM 进行数据清理，我们展示了一种高效且有效的方法来提高数据集质量，而无需依赖昂贵的人工标注工作。