LLM2D

摘要

医疗保健的进步已将重点转移到以患者为中心的方案，特别是在自我保健和患者教育方面，这得益于电子健康记录 (EHR) 的使用。然而，EHR 中的医学术语给患者理解带来了重大挑战。为了解决这个问题，我们引入了一个新的任务，即自动生成通俗定义，旨在将复杂的医学术语简化为患者友好的通俗语言。我们首先创建了 README 数据集，这是一个包含超过 50,000 个独特的（医学术语，通俗定义）对和 300,000 个提及的大型集合，每个集合都提供了由领域专家手动标注的上下文感知通俗定义。我们还设计了一个以数据为中心的“人机”管道，该管道协同数据过滤、增强和选择来提高数据质量。然后，我们使用 README 作为模型的训练数据，并利用检索增强生成方法来减少幻觉并提高模型输出的质量。我们广泛的自动和人工评估表明，当使用高质量数据进行微调时，开源移动友好型模型能够匹配甚至超越 ChatGPT 等最先进的封闭源大型语言模型的性能。这项研究代表了在弥合患者教育中的知识差距和推动以患者为中心的医疗保健解决方案方面取得的重大进展。