摘要
基于 X 射线图像的医学报告生成 (MRG) 是人工智能领域的关键领域,可以显著减少诊断负担和患者等待时间。尽管取得了重大进展,但我们认为该任务遇到了瓶颈,原因是基准数据集有限,以及现有大型模型在该专业领域的增强能力不足。具体而言,最近发布的 CheXpert Plus 数据集缺乏比较评估算法及其结果,仅提供了数据集本身。这种情况使得后续算法的训练、评估和比较具有挑战性。因此,我们在 CheXpert Plus 数据集上对现有的主流 X 射线报告生成模型和大型语言模型 (LLM) 进行了全面的基准测试。我们相信,所提出的基准可以为后续算法提供可靠的比较基础,并作为研究人员快速掌握该领域最先进模型的指南。更重要的是,我们提出了一种用于 X 射线图像报告生成的大型模型,该模型采用多阶段预训练策略,包括自监督自回归生成和 X 射线报告对比学习,以及监督微调。大量的实验结果表明,基于 Mamba 的自回归预训练有效地编码了 X 射线图像,而图像文本对比预训练进一步对齐了特征空间,从而取得了更好的实验结果。源代码可以在 \url{https://github.com/Event-AHU/Medical_Image_Analysis} 上找到。