LLM2D

摘要

arXiv:2502.13198v1 专辑类型:交叉摘要:低质量的数据限制了机器学习(ML)的优越性并削弱了高性能的ML软件系统。如今，由于数据量和复杂性的增加，数据更容易面临质量问题的风险。因此，在将数据进一步应用于ML管道之前，需要进行繁琐且耗时的数据准备和改进工作。为应对这一挑战，我们提出了一种智能的数据为中心的评估框架，该框架可以识别高质量的数据并提高ML系统的性能。提出的方法结合了质量测量的策划和无监督学习，以区分高质量和低质量的数据。该框架设计为高度灵活且通用，以便在各种领域和应用中部署。为了验证所设计框架的成果，我们在分析化学领域实施了一个实际案例，并在反义寡核苷酸的三个数据集上对其进行了测试。领域专家被咨询以识别相关质量测量，并评估框架的结果。结果表明，以质量为中心的数据评估框架能够识别高质量数据的特性，指导高效的实验室实验，并最终提高ML系统的性能。