LLM2D
基于弱标签微调轻量级大型语言模型以增强放射学报告中的疾病检测
Enhancing disease detection in radiology reports through fine-tuning lightweight LLM on weak labels
作者: Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George Shih, Yifan Peng
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16563v1

摘要

尽管大型语言模型 (LLM) 在医学领域的应用取得了重大进展,但一些限制仍然阻碍了它们的实际应用。其中包括模型尺寸的限制以及缺乏特定人群的标记数据集。在这项工作中,我们研究了通过使用合成标签对轻量级 LLM(例如 Llama 3.1-8B)进行微调来提高其性能的潜力。通过结合各自的指令数据集,对两个任务进行联合训练。当任务特定合成标签的质量相对较高时(例如,由 GPT4-o 生成),Llama 3.1-8B 在开放式疾病检测任务上取得了令人满意的性能,微 F1 分数为 0.91。相反,当任务相关合成标签的质量相对较低时(例如,来自 MIMIC-CXR 数据集),与经过精心策划的标签进行校准后,经过微调的 Llama 3.1-8B 能够超越其噪声教师标签(微 F1 分数为 0.67 对比 0.63),表明该模型具有强大的内在潜在能力。这些发现证明了使用合成标签对 LLM 进行微调的潜力,为未来 LLM 在医学领域专业化的研究提供了有希望的方向。