LLM2D
通过智能数据质量评估增强机器学习性能:一种基于数据的无监督框架
Enhancing Machine Learning Performance through Intelligent Data Quality Assessment: An Unsupervised Data-centric Framework
作者: Manal Rahal, Bestoun S. Ahmed, Gergely Szabados, Torgny Fornstedt, Jorgen Samuelsson
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13198v1

摘要

arXiv:2502.13198v1 专辑类型:交叉 摘要:低质量的数据限制了机器学习(ML)的优越性并削弱了高性能的ML软件系统。如今,由于数据量和复杂性的增加,数据更容易面临质量问题的风险。因此,在将数据进一步应用于ML管道之前,需要进行繁琐且耗时的数据准备和改进工作。为应对这一挑战,我们提出了一种智能的数据为中心的评估框架,该框架可以识别高质量的数据并提高ML系统的性能。提出的方法结合了质量测量的策划和无监督学习,以区分高质量和低质量的数据。该框架设计为高度灵活且通用,以便在各种领域和应用中部署。为了验证所设计框架的成果,我们在分析化学领域实施了一个实际案例,并在反义寡核苷酸的三个数据集上对其进行了测试。领域专家被咨询以识别相关质量测量,并评估框架的结果。结果表明,以质量为中心的数据评估框架能够识别高质量数据的特性,指导高效的实验室实验,并最终提高ML系统的性能。