LLM2D
HealthGPT:一种通过异质知识适应以统一理解和生成的大规模视觉-语言医疗模型
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
作者: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09838v2

摘要

arXiv:2502.09838v2 宣告类型:交叉 摘要:我们提出了HealthGPT,这是一种强大的医疗大规模视觉-语言模型(Med-LVLM),它在统一的自回归框架内集成了医疗视觉理解和生成能力。我们的_bootstrap_哲学是逐步适应异构的理解和生成知识到预训练的大语言模型(LLMs)中。这通过一种新颖的异构低秩适应(H-LoRA)技术实现,该技术与量身定制的分层视觉感知方法和三阶段学习策略相结合。为了有效地学习HealthGPT,我们设计了一个全面的医疗领域特定的视觉和语言理解与生成数据集,称为VL-Health。实验结果展示了HealthGPT在医疗视觉统一任务中的出色性能和可扩展性。我们的项目可以在https://github.com/DCDmllm/HealthGPT访问。