LLM2D

摘要

arXiv:2505.04192v1 交叉类型: cross 摘要: 我们介绍了VideoPath-LLaVA，这是计算病理学中第一个集成了三种不同图像场景的大规模多模态模型（LMM）：单张切片图像、自动关键帧提取的剪辑，以及手动分割的病理视频图像，以模拟病理学家的自然诊断过程。通过生成详细的组织学描述并最终得出一个确定性的签出诊断，VideoPath-LLaVA 将视觉叙事与诊断推理相结合。我们方法的核心是 VideoPath-Instruct 数据集，该数据集包含 4278 个病理学视频和诊断特定的思维链指令对，这些数据来源于 YouTube 上的教育病理学视频。尽管高质量的数据对于增强诊断推理至关重要，但其创建需要大量时间和数据量有限。为了解决这一挑战，我们从现有的单张图像指令数据集转移知识，在弱标注的关键帧提取剪辑上进行训练，然后在手动分割的视频上进行微调。VideoPath-LLaVA 设立了病理视频分析的新基准，并为未来的 AI 系统提供了一个有希望的基础，这些系统通过集成的视觉和诊断推理支持临床决策。我们的代码、数据和模型已公开发布在 https://github.com/trinhvg/VideoPath-LLaVA。