LLM2D

摘要

arXiv:2502.10536v1 交叉类型公告摘要：对病理切片病例的解释是医学中许多重要诊断和治疗决策的基础。值得注意的是，这一过程通常要求病理学家在每个病例中整合和总结多个切片上的发现。目前计算病理学中的视觉-语言能力主要局限于感兴趣的较小区域、低放大倍数下的较大区域，或单个全切片图像（WSI）。这限制了跨越多个WSI的高倍率区域上的发现的解释。通过利用Gemini 1.5 Flash，一种具有100万令牌上下文窗口的大规模多模态模型（LMM），我们展示了从多达40,000张768x768像素的图像片段中生成最终诊断的能力，这些图像来自10倍放大倍数的多个WSI。这相当于最多11小时以1 fps的速度播放的视频。专家病理学家评估表明，生成的报告文本在临床准确性上是准确的，并且在68%（95%置信区间：[60%，76%]）的包含最多5张切片的多切片示例中，优于或与原始报告相当。尽管对于包含6张或更多张切片的示例，性能有所下降，但这项研究证明了利用现代LMM的长上下文能力，特别是在包含数千个图像片段的独特挑战性任务中生成医疗报告方面的潜力。