LLM2D

摘要

医学影像分析在现代放射学诊断中至关重要，尤其是在医学影像数据呈指数级增长的情况下。对自动生成报告系统的需求日益迫切。虽然以往的研究主要集中于利用机器学习和多模态语言模型处理二维医学图像，但由于数据稀缺和计算复杂性，三维医学图像报告生成的研究还比较少。本文介绍了 3D-CT-GPT，这是一种基于视觉问答 (VQA) 的医学视觉语言模型，专门设计用于从三维 CT 扫描（尤其是胸部 CT）生成放射学报告。在公共和私有数据集上的大量实验表明，3D-CT-GPT 在报告准确性和质量方面明显优于现有方法。虽然目前的方法很少，包括部分开源的 CT2Rep 和开源的 M3D，但我们通过适当的数据转换和评估方法确保了公平比较。实验结果表明，3D-CT-GPT 提高了诊断准确性和报告连贯性，成为临床放射学报告生成的一种可靠解决方案。未来的工作将集中在扩展数据集和进一步优化模型，以提高其性能和适用性。