LLM2D
LCMDC:用于自动分诊和医疗咨询的大规模中文医疗对话语料库
LCMDC: Large-scale Chinese Medical Dialogue Corpora for Automatic Triage and Medical Consultation
作者: Xinyuan Wang, Haozhou Li, Dingfang Zheng, Qinke Peng
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03521v1

摘要

全球 COVID-19 大流行暴露了传统医疗体系的重大缺陷,加速了在线医疗服务的进步,尤其是在医疗分诊和咨询方面。然而,现有的研究面临着两大挑战。首先,由于隐私问题,大规模、公开可用的特定领域医疗数据集十分匮乏,现有数据集规模小,仅限于少数疾病,限制了基于预训练语言模型 (PLM) 的分诊方法的有效性。其次,现有方法缺乏医学知识,难以准确理解患者与医生咨询中的专业术语和表达。为了克服这些障碍,我们构建了大规模中文医学对话语料库 (LCMDC),包含 439,630 个样本的粗粒度分诊数据集、199,600 个样本的细粒度诊断数据集以及 472,418 个项目的医疗咨询数据集,从而解决该领域的数据短缺问题。此外,我们还提出了一种新颖的分诊系统,该系统将基于 BERT 的监督学习与提示学习相结合,以及一种使用强化学习的基于 GPT 的医疗咨询模型。为了增强领域知识获取,我们使用我们自建的背景语料库对 PLM 进行预训练。在 LCMDC 上的实验结果证明了我们提出的系统的有效性。