摘要
arXiv:2502.15069v1 交叉公告类型
摘要:大型语言模型(LLMs)在疾病诊断方面展示了令人印象深刻的性能。然而,它们在识别更罕见的疾病方面的效果,尤其是在这些疾病本身更难诊断的情况下,仍然存在疑问。随着LLMs在医疗健康领域应用的增加,罕见疾病的表现变得尤为重要。特别是在初级医疗提供者仅凭患者的对话就需要进行罕见疾病的诊断,以便采取适当的下一步行动的情况下,这一点尤其重要。为此,设计了多种临床决策支持系统来帮助识别罕见疾病,但这些系统的实用性受限,因为它们缺乏对常见疾病的了解和使用上的难度。
在本文中,我们提出了一种名为RareScale的方法,将LLMs的知识与专家系统相结合。我们使用专家系统和LLM共同模拟罕见疾病的对话。这些数据用于训练一个罕见疾病候选预测模型。这个较小模型的候选者然后作为额外输入提供给黑盒LLM,进行最终的鉴别诊断。因此,RareScale能够在罕见和常见诊断之间取得平衡。我们对超过575种罕见疾病进行了结果展示,从Abdominal Actinomycosis(腹膜肉状菌病)开始,一直到Wilson's Disease(威尔逊病)结束。我们的方法在Top-5准确率方面显著改进了黑盒LLM的基线性能,超过了17%。我们还发现,我们的候选生成性能很高(例如,在生成的gpt-4o对话上达到88.8%)。