LLM2D

摘要

arXiv:2505.00025v1 Announce Type: cross 摘要：近年来，尽管基础模型如DeepSeek-R1和ChatGPT在通用任务中表现出显著的能力，但专业知识壁垒、计算资源需求和部署环境限制严重阻碍了它们在实际医疗场景中的应用。为应对这些挑战，本文提出了一种高效的轻量级医疗垂直大型语言模型架构方法，从三个维度系统地解决了医疗大型模型的轻量化问题：知识获取、模型压缩和计算优化。在知识获取层面，设计了一种从微调的DeepSeek-R1-Distill-70B教师模型到DeepSeek-R1-Distill-7B学生模型的知识转移管道，并采用低秩适应（LoRA）技术精确调整关键注意力层。在模型压缩层面，实施了包括4比特权重量化在内的压缩技术，同时保留了核心的医学推理能力。在计算优化层面，集成了一系列推理优化技术，如Flash Attention加速和连续批量处理，并构建了一个专业的提示模板系统，以适应不同类型的医疗问题。在医学问答数据集上的实验结果表明，本文提出的方法在保持专业准确性的前提下，降低了64.7%的内存消耗和12.4%的推理延迟，为边缘计算设备等资源受限环境中的医疗大型模型应用提供了有效的解决方案。