LLM2D

摘要

数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而，数据集在构建过程中往往会无意中包含噪声数据。尽管已经有许多尝试通过人工注释来纠正这个问题，但雇佣和管理人工注释员既昂贵又耗时。作为一种替代方法，最近的研究正在探索使用大型语言模型（LLMs）进行数据注释。在这项研究中，我们展示了一个案例研究，扩展了基于LLM的数据注释的应用，通过清洗策略来提升现有数据集的质量。具体而言，我们利用链式思维和多数投票等方法来模仿人工注释，并对广泛用于多文档摘要任务的Multi-News数据集中的无关文档进行分类。通过我们提出的清洗方法，我们引入了一个增强版的Multi-News+。通过使用LLMs进行数据清洗，我们展示了一种高效且有效的提高数据集质量的方法，而无需依赖昂贵的人工注释工作。