LLM2D

摘要

药物提取和挖掘在医疗保健自然语言处理研究中扮演着重要角色，因为它在医院环境中具有实际应用，例如将药物信息映射到标准临床知识库（SNOMED-CT、BNF 等）。在本研究中，我们调查了最先进的大型语言模型（LLM）在文本挖掘任务中的应用，这些任务涉及药物及其相关属性，例如剂量、途径、强度和不良反应。此外，我们探索了不同的集成学习方法（\textsc{Stack-Ensemble} 和 \textsc{Voting-Ensemble}）来增强来自单个 LLM 的模型性能。我们的集成学习结果表明，在一般和特定领域，它比单独微调的基模型 BERT、RoBERTa、RoBERTa-L、BioBERT、BioClinicalBERT、BioMedRoBERTa、ClinicalBERT 和 PubMedBERT 表现更好。最后，我们构建了一个实体链接功能，将提取的医疗术语映射到 SNOMED-CT 代码和英国国家处方集（BNF）代码，这些代码进一步映射到药物和器械词典 (dm+d) 和 ICD。我们的模型工具包和桌面应用程序可在 \url{https://github.com/HECTA-UoM/ensemble-NER} 公开获取。