LLM2D

摘要

呼吸系统疾病的高发病率和死亡率突显了早期筛查的重要性。机器学习模型可以自动化临床咨询和听诊，在这一领域提供至关重要的支持。然而，涉及的数据，包括人口统计、病史、症状和呼吸音频，是异构且复杂的。现有的方法不足且缺乏泛化能力，因为它们通常依赖于有限的训练数据、基本的融合技术和特定任务的模型。在本文中，我们提出了 RespLLM，一种新型的多模态大型语言模型 (LLM) 框架，它统一了文本和音频表示，用于呼吸健康预测。RespLLM 利用预训练 LLM 的广泛先验知识，并通过跨模态注意力实现有效的音频文本融合。指令微调用于整合来自多个来源的不同数据，确保模型的泛化性和通用性。在五个真实世界数据集上的实验表明，RespLLM 在训练任务上的性能优于领先的基线，平均提高了 4.6%，在未见数据集上的性能提高了 7.9%，并促进了新任务的零样本预测。我们的工作为能够感知、倾听和理解异构数据的多模态模型奠定了基础，为可扩展的呼吸健康诊断铺平了道路。