LLM2D

摘要

全球 COVID-19 大流行暴露了传统医疗体系的重大缺陷，加速了在线医疗服务的进步，尤其是在医疗分诊和咨询方面。然而，现有的研究面临着两大挑战。首先，由于隐私问题，大规模、公开可用的特定领域医疗数据集十分匮乏，现有数据集规模小，仅限于少数疾病，限制了基于预训练语言模型 (PLM) 的分诊方法的有效性。其次，现有方法缺乏医学知识，难以准确理解患者与医生咨询中的专业术语和表达。为了克服这些障碍，我们构建了大规模中文医学对话语料库 (LCMDC)，包含 439,630 个样本的粗粒度分诊数据集、199,600 个样本的细粒度诊断数据集以及 472,418 个项目的医疗咨询数据集，从而解决该领域的数据短缺问题。此外，我们还提出了一种新颖的分诊系统，该系统将基于 BERT 的监督学习与提示学习相结合，以及一种使用强化学习的基于 GPT 的医疗咨询模型。为了增强领域知识获取，我们使用我们自建的背景语料库对 PLM 进行预训练。在 LCMDC 上的实验结果证明了我们提出的系统的有效性。