摘要
arXiv:2502.07132v1 数据 harmonization 类型: 新
摘要:数据 harmonization 是一个至关重要的任务,涉及将来自不同源的数据集进行整合。尽管在这个领域进行了多年的研究,但由于模式不匹配、术语差异以及数据收集方法的不同,这一任务仍然是一项耗时且具有挑战性的任务。本文提出了作为实现专家自控数据 harmonization 的可能性,既能够赋予专家们自己 harmonize 数据的权力,又能够简化这一过程。我们引入了 Harmonia 系统,该系统结合了基于 LLM 的推理、交互式用户界面以及数据 harmonization 原语库,以自动化数据 harmonization 管道的合成。我们在临床数据 harmonization 场景中展示了 Harmonia,帮助其交互式地创建可重用的管道,将数据集映射到标准格式。最后,我们讨论了挑战和开放问题,并提出了进一步推进我们愿景的研究方向。