摘要
arXiv:2502.11262v1 分类:交叉学科
摘要:准备各种数据驱动的人工智能和机器学习模型所需的高质量数据集已成为数据驱动分析的基础任务。传统的数据发现方法通常会将数据集整合到单一预定义的质量指标中,这可能会导致下游任务的偏差。本文介绍了一种名为MODis的框架,该框架通过优化多个用户定义的、模型性能指标来发现数据集。给定一组数据源和一个模型,MODis会选择并整合数据源成一个街区数据集,在该数据集上,模型在所有性能指标上的表现都应达到预期效果。我们将MODis形式化为一个多目标有限状态转换器,并推导出三种可行算法来生成街区数据集。我们首先的算法采用“逐步减少”的策略,从通用模式开始,迭代地去除不具前景的数据。我们的第二个算法进一步降低成本,采用双向策略交替进行数据增强和减少。我们还引入了一个多样化算法以减轻街区数据集中的偏差。我们实验验证了我们的街区数据发现算法的效率和有效性,并展示了它们在优化数据科学管道方面的应用。