摘要
我们介绍了 ECG-Image-Database,这是一个大型且多样化的心电图 (ECG) 图像集合,这些图像由心电图时间序列数据生成,并包含现实世界中的扫描、成像和物理伪影。我们使用 ECG-Image-Kit(一个开源 Python 工具包)从原始心电图时间序列生成 12 导联心电图打印输出的逼真图像。这些图像包括现实的失真,例如噪声、皱纹、污点和透视偏移,这些失真是在数字和物理上生成的。该工具包被应用于 PTB-XL 数据库中的 977 个 12 导联心电图记录和 Emory Healthcare 的 1,000 个记录,以创建高保真合成心电图图像。这些独特的图像经过了使用 ECG-Image-Kit 进行的程序失真和物理效应(如浸泡、染色和霉菌生长)的处理,然后在各种照明条件下进行扫描和摄影,以创建现实世界的伪影。
所得数据集包含 35,595 个软件标记的心电图图像,具有广泛的成像伪影和失真。该数据集提供了与图像并行的真实时间序列数据,为开发心电图数字化和分类的机器学习和深度学习模型提供参考。这些图像的质量各不相同,从清晰的干净纸张扫描到退化纸张的嘈杂照片,从而能够开发出更通用的数字化算法。
ECG-Image-Database 解决了对数字化纸质和非数字心电图以进行计算机分析的迫切需求,为开发能够将心电图图像转换为时间序列的强大机器学习和深度学习模型奠定了基础。该数据集旨在作为心电图数字化和计算机注释工作的参考。ECG-Image-Database 被用于 2024 年 PhysioNet 挑战赛中的心电图图像数字化和分类。