LLM2D

摘要

arXiv:2505.00827v1 宣布类型: 新摘要: 基于机器学习算法的临床风险预测在现代医疗保健中起着关键作用。开发可靠预测模型的关键组成部分之一是收集高质量的时间序列临床事件。在本文中，我们发布了一个包含22,588,586个临床时间序列事件的数据集，我们称之为MIMIC-\RNum{4}-Ext-22MCTS。我们的原始数据是从广为人知但未结构化的MIMIC-IV-Note \cite{Johnson2023-pg} 中选择的出院总结。然后，我们从出院总结中提取出作为短文本片段的临床事件，以及这些事件的时间戳作为时间信息。通用的MIMIC-IV-Note给我们的工作带来了特定的挑战：结果表明，出院总结对于典型的自然语言模型来说太长了，无法处理，而且感兴趣的临床事件通常没有明确的时间戳。因此，我们提出了一个新框架，该框架如下工作：1) 我们将每个出院总结分解为可管理的小段文本；2) 我们应用上下文BM25和上下文语义搜索来检索具有高度潜在包含临床事件的片段；3) 我们精心设计了提示，教最近发布的Llama-3.1-8B \cite{touvron2023llama} 模型识别或推断这些片段的时间信息。我们展示，获得的数据集如此具有信息性和透明度，即使是在我们的数据集上微调的标准模型在医疗应用中也取得了显著的改进。特别是，基于我们数据集微调的BERT模型在医学问答任务中的准确率提高了10%，在临床试验匹配任务中的准确率提高了3%，比经典BERT高出3%。基于我们数据集微调的GPT-2模型对临床问题的响应更具有临床可靠性。