LLM2D

摘要

基于 X 射线图像的医学报告生成 (MRG) 是人工智能领域的关键领域，可以显著减少诊断负担和患者等待时间。尽管取得了重大进展，但我们认为该任务遇到了瓶颈，原因是基准数据集有限，以及现有大型模型在该专业领域的增强能力不足。具体而言，最近发布的 CheXpert Plus 数据集缺乏比较评估算法及其结果，仅提供了数据集本身。这种情况使得后续算法的训练、评估和比较具有挑战性。因此，我们在 CheXpert Plus 数据集上对现有的主流 X 射线报告生成模型和大型语言模型 (LLM) 进行了全面的基准测试。我们相信，所提出的基准可以为后续算法提供可靠的比较基础，并作为研究人员快速掌握该领域最先进模型的指南。更重要的是，我们提出了一种用于 X 射线图像报告生成的大型模型，该模型采用多阶段预训练策略，包括自监督自回归生成和 X 射线报告对比学习，以及监督微调。大量的实验结果表明，基于 Mamba 的自回归预训练有效地编码了 X 射线图像，而图像文本对比预训练进一步对齐了特征空间，从而取得了更好的实验结果。源代码可以在 \url{https://github.com/Event-AHU/Medical_Image_Analysis} 上找到。