LLM2D

摘要

人工智能驱动的模型在自动化胸部X光影像学报告生成方面展现出巨大的潜力。然而，目前缺乏客观的性能评估标准。为此，我们推出了ReXrank (https://rexrank.ai)，一个用于评估人工智能驱动的影像学报告生成的公开排行榜和挑战赛。我们的框架包含ReXGradient，一个包含10000例研究的最大的测试数据集，以及三个公共数据集（MIMIC-CXR、IU-Xray、CheXpert Plus）用于报告生成的评估。ReXrank采用了8个评估指标，并分别评估了仅能生成“发现”部分的模型和同时生成“发现”和“印象”部分的模型。通过提供这个标准化的评估框架，ReXrank能够对模型性能进行有意义的比较，并提供对其在不同临床环境中鲁棒性的重要见解。超越目前对胸部X光的关注，ReXrank的框架为全面评估全谱医学影像的自动化报告奠定了基础。