LLM2D

摘要

自动医疗报告生成 (MRG) 旨在从医疗图像中生成详细的文本报告，已成为该领域的一项关键任务。MRG 系统可以通过减少报告撰写所需的时间和精力来增强放射学工作流程，从而提高诊断效率。在本研究中，我们提出了一种利用多模态大型语言模型进行自动 MRG 的新方法。具体而言，我们采用了来自 M3D-CLIP 的 3D Vision Transformer (ViT3D) 图像编码器来处理 3D 扫描，并使用 Asclepius-Llama3-8B 作为语言模型，通过自回归解码生成文本报告。实验表明，我们的模型在 MRG 任务验证集上获得了 0.3 的平均 Green 分数，在视觉问答 (VQA) 任务验证集上获得了 0.61 的平均准确率，优于基线模型。我们的方法通过在小型数据集上微调模型，证明了 ViT3D 与 LLaMA3 对齐在自动 MRG 和 VQA 任务中的有效性。