LLM2D

摘要

arXiv:2502.09838v2 宣告类型：交叉摘要：我们提出了HealthGPT，这是一种强大的医疗大规模视觉-语言模型（Med-LVLM），它在统一的自回归框架内集成了医疗视觉理解和生成能力。我们的_bootstrap_哲学是逐步适应异构的理解和生成知识到预训练的大语言模型（LLMs）中。这通过一种新颖的异构低秩适应（H-LoRA）技术实现，该技术与量身定制的分层视觉感知方法和三阶段学习策略相结合。为了有效地学习HealthGPT，我们设计了一个全面的医疗领域特定的视觉和语言理解与生成数据集，称为VL-Health。实验结果展示了HealthGPT在医疗视觉统一任务中的出色性能和可扩展性。我们的项目可以在https://github.com/DCDmllm/HealthGPT访问。