LLM2D
HealthGPT:一种通过异构知识适应实现统一理解和生成的大规模视觉-语言模型
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
作者: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09838v1

摘要

arXiv:2502.09838v1 跨领域类型:交叉学科 摘要:我们介绍了HealthGPT,这是一种强大的医学视觉-语言模型(Med-LVLM),在其统一的自回归框架中融合了医学视觉理解与生成能力。我们的自举哲学是逐步将异构的理解和生成知识适应预训练的大语言模型(LLMs)。这一目标通过一种新颖的异构低秩适应(H-LoRA)技术实现,该技术与定制的分层次视觉感知方法和三阶段学习策略相辅相成。为了有效地学习HealthGPT,我们设计了一个综合的医学领域特定的视觉-语言理解和生成数据集,名为VL-Health。实验结果展示了HealthGPT在医学视觉统一任务中出色的表现和可扩展性。我们的项目可以在 https://github.com/DCDmllm/HealthGPT 获取。