LLM2D

摘要

arXiv:2504.00993v1 类型: cross 摘要: 医疗任务如诊断和治疗计划需要精细且复杂的推理，特别是在生命关键领域。与数学推理不同，医学推理要求细致、可验证的思想过程，以确保可靠性和准确性。然而，缺乏能够提供透明、逐步推理过程的数据集，用于验证和提升AI模型的医学推理能力。为了解决这一问题，我们引入了MedReason，这是一个大规模的高质量医学推理数据集，旨在使大型语言模型（LLMs）能够进行忠实且可解释的医学问题解决。我们利用结构化的医学知识图谱（KG）将临床问答对转换为逻辑推理链，即“思考路径”，这些路径通过相关KG实体追踪问题元素到答案之间的联系。每条路径都经过临床逻辑和基于证据的医学的一致性验证。我们的管道从7个医学数据集中生成多种医学问题的详细推理，结果产生了一个包含32,682个问题-答案对的数据集，每个问题-答案对都有详细的逐步解释。实验表明，使用我们数据集进行微调可以一致地提升医学问题解决能力，DeepSeek-Ditill-8B的提升高达7.7%。我们表现最好的模型MedReason-8B在临床基准测试MedBullets中比最先进的医学推理模型Huatuo-o1-8B高出4.2%。我们还邀请来自不同专科的医疗专业人士评估我们的数据集的质量，确保MedReason提供准确且连贯的医学推理。我们将数据、模型和代码公开提供。