LLM2D
RespLLM:利用多模态大型语言模型统一音频和文本,实现广义呼吸健康预测
RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction
作者: Yuwei Zhang, Tong Xia, Aaqib Saeed, Cecilia Mascolo
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05361v1

摘要

呼吸系统疾病的高发病率和死亡率突显了早期筛查的重要性。机器学习模型可以自动化临床咨询和听诊,在这一领域提供至关重要的支持。然而,涉及的数据,包括人口统计、病史、症状和呼吸音频,是异构且复杂的。现有的方法不足且缺乏泛化能力,因为它们通常依赖于有限的训练数据、基本的融合技术和特定任务的模型。在本文中,我们提出了 RespLLM,一种新型的多模态大型语言模型 (LLM) 框架,它统一了文本和音频表示,用于呼吸健康预测。RespLLM 利用预训练 LLM 的广泛先验知识,并通过跨模态注意力实现有效的音频文本融合。指令微调用于整合来自多个来源的不同数据,确保模型的泛化性和通用性。在五个真实世界数据集上的实验表明,RespLLM 在训练任务上的性能优于领先的基线,平均提高了 4.6%,在未见数据集上的性能提高了 7.9%,并促进了新任务的零样本预测。我们的工作为能够感知、倾听和理解异构数据的多模态模型奠定了基础,为可扩展的呼吸健康诊断铺平了道路。