摘要
arXiv:2502.09838v1 跨领域类型:交叉学科
摘要:我们介绍了HealthGPT,这是一种强大的医学视觉-语言模型(Med-LVLM),在其统一的自回归框架中融合了医学视觉理解与生成能力。我们的自举哲学是逐步将异构的理解和生成知识适应预训练的大语言模型(LLMs)。这一目标通过一种新颖的异构低秩适应(H-LoRA)技术实现,该技术与定制的分层次视觉感知方法和三阶段学习策略相辅相成。为了有效地学习HealthGPT,我们设计了一个综合的医学领域特定的视觉-语言理解和生成数据集,名为VL-Health。实验结果展示了HealthGPT在医学视觉统一任务中出色的表现和可扩展性。我们的项目可以在 https://github.com/DCDmllm/HealthGPT 获取。