LLM2D

摘要

arXiv:2501.06465v3 宣布类型: replace-cross 摘要: 我们介绍了首个针对中国医疗社区的临床术语体系,即MedCT,并附带一个临床基础模型MedBERT和一个实体链接模型MedLink。MedCT系统实现了对中国临床数据的标准化和可编程表示,从而依次促进了新药物、治疗路径的发展,并改善了庞大中国社区的患者结果。此外,MedCT知识图谱提供了一种有原则的机制,以最小化大型语言模型(LLMs)的幻觉问题,从而在基于LLM的临床应用中实现了显著的准确性和安全性。通过利用LLMs的生成能力和表现力,我们能够在三个月内迅速构建一个生产级的术语体系并将其部署到真实世界的临床领域,而传统的术语体系如SNOMED CT则经历了超过二十年的发展时间。我们的实验表明,MedCT系统在语义匹配和实体链接任务中达到了最先进的(SOTA)性能,不仅对中文,也对英文。我们还通过在一系列代表性的临床任务中应用MedCT和LLMs,进行了纵向实地实验,包括电子健康记录(EHR)自动化生成和医疗文件搜索以辅助诊断决策。我们的研究展示了MedCT在临床工作流程和患者结果中的多种价值,特别是在临床LLM应用的新领域。我们以足够的工程细节呈现了我们的方法,使得为其他非英语社会构建临床术语体系能够容易地进行重现。我们公开了我们的术语体系、模型和算法,以及真实世界的临床数据集,以促进开发。