LLM2D

摘要

深度学习模型需要足够的数据才能找到其中的隐藏模式。生成模型的目的是学习数据分布，从而允许我们采样更多数据并扩充原始数据集。在生理数据，更具体地说是在心电图 (ECG) 数据的背景下，鉴于其敏感性以及昂贵的数据收集成本，我们可以利用生成模型的优势来扩大现有数据集并改进下游任务，在本例中是心律分类。在这项工作中，我们探索了使用深度学习的不同生成模型（即 Diffweave、Time-Diffusion 和 Time-VQVAE）生成的合成数据在获得两个开源多变量 ECG 数据集的更好分类结果方面的效用。此外，我们还研究了迁移学习的影响，方法是微调一个合成预训练模型，然后逐步添加越来越多的真实数据。我们的结论是，尽管合成样本类似于真实样本，但仅仅通过扩充真实数据集来提高分类效果在单个数据集上几乎不明显，但当合并两个数据集时，当使用合成样本作为扩充数据时，分类器的所有指标都显示出提高。根据微调结果，Time-VQVAE 生成模型优于其他模型，但其能力不足以达到仅使用真实数据训练的分类器的结果。此外，作为这项研究主要研究问题的附带效应，我们还探索了衡量合成数据与真实数据之间接近程度的方法和指标。