LLM2D

摘要

**背景：**新冠肺炎疫情突显了开发能够从多种不断演变的数据源中检测疾病的强大诊断工具的必要性。机器学习模型，尤其是卷积神经网络 (CNN)，已展现出巨大潜力。然而，现实世界数据的动态特性会导致模型漂移，即随着底层数据分布的变化，模型性能会随着时间的推移而下降。解决这一挑战对于在诊断应用中保持准确性和可靠性至关重要。 **目标：**本研究旨在开发一个框架，该框架可以监控模型漂移并采用适应机制来减轻在动态音频数据上训练的 COVID-19 检测模型的性能波动。 **方法：**使用了两个众包的 COVID-19 音频数据集，COVID-19 Sounds 和 COSWARA。每个数据集都被分为开发阶段和开发后阶段。使用来自开发阶段的咳嗽录音训练和评估了一个基线 CNN 模型。最大平均差异 (MMD) 用于检测数据分布和模型性能在不同阶段之间的变化。在检测到漂移后，会触发重新训练以更新基线模型。比较了两种适应方法：无监督域适应 (UDA) 和主动学习 (AL)。 **结果：**UDA 使 COVID-19 Sounds 和 COSWARA 数据集的平衡准确率分别提高了 22% 和 24%。AL 产生了更大的改进，分别提高了 30% 和 60%。 **结论：**提出的框架解决了 COVID-19 检测中的模型漂移问题，使模型能够持续适应不断演变的数据。这种方法确保了模型的持续性能，有助于为 COVID-19 以及其他传染病开发强大的诊断工具。