LLM2D

摘要

尽管大型语言模型 (LLM) 在医学领域的应用取得了重大进展，但一些限制仍然阻碍了它们的实际应用。其中包括模型尺寸的限制以及缺乏特定人群的标记数据集。在这项工作中，我们研究了通过使用合成标签对轻量级 LLM（例如 Llama 3.1-8B）进行微调来提高其性能的潜力。通过结合各自的指令数据集，对两个任务进行联合训练。当任务特定合成标签的质量相对较高时（例如，由 GPT4-o 生成），Llama 3.1-8B 在开放式疾病检测任务上取得了令人满意的性能，微 F1 分数为 0.91。相反，当任务相关合成标签的质量相对较低时（例如，来自 MIMIC-CXR 数据集），与经过精心策划的标签进行校准后，经过微调的 Llama 3.1-8B 能够超越其噪声教师标签（微 F1 分数为 0.67 对比 0.63），表明该模型具有强大的内在潜在能力。这些发现证明了使用合成标签对 LLM 进行微调的潜力，为未来 LLM 在医学领域专业化的研究提供了有希望的方向。