摘要
arXiv:2504.18544v1 宣告类型:交叉
摘要:生成合成表数据可能会很具挑战性,然而对其质量的评估也同样具有挑战性,甚至更为困难。本文系统回顾强调了严格评估合成健康数据的重要性,以确保其可靠性和相关性,并正确使用。基于筛选出的1766篇文章和详细审查的101篇文章,我们确定了关键的挑战,包括评价方法缺乏一致意见、评价指标使用不当、领域专家输入不足、数据集特征报告不充分以及结果重现性较差。为此,我们提供了关于合成数据生成和评估的若干指南,以便社区能够释放和充分利用合成数据的变革潜力,并加速创新。