摘要
arXiv:2504.12326v1 交叉类型公告
摘要:临床案例报告和出院总结可能是患者会诊中最完整和准确的总结,但是它们是在会诊之后最终确定的,即在会诊之后进行了时间戳标记。补充的数据结构化流数据可以更快地获得,但可能不完整。为了在更完整且时间分辨率更高的数据上训练模型和算法,我们构建了一个管道,使用大语言模型对案例报告中的时间局部化发现进行表型识别、提取和标注。我们应用该管道生成了一个针对Sepsis-3的开放访问文本时间序列语料库,包含来自Pubmed-Open Access (PMOA) 子集的2,139份案例报告。为了验证我们的系统,我们将其应用于PMOA,并使用I2B2/MIMIC-IV的时间轴注释,然后将结果与医生专家注释进行比较。我们展示了高的临床发现恢复率(事件匹配率:O1-preview--0.755,Llama 3.3 70B Instruct--0.753)和强大的时间顺序(一致度:O1-preview--0.932,Llama 3.3 70B Instruct--0.932)。我们的工作描述了LLM在文本中时间局部化临床发现的能力,阐述了LLM在时间重建中的局限性,并通过多模态集成提供了几个改进的可能性途径。