LLM2D
从临床文本时间序列 Forecasting:Encoder 和 Decoder 语言模型家族的适应性调整
Forecasting from Clinical Textual Time Series: Adaptations of the Encoder and Decoder Language Model Families
作者: Shahriar Noroozizadeh, Sayantan Kumar, Jeremy C. Weiss
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10340v1

摘要

arXiv:2504.10340v1 类别: 交叉学科 摘要:临床案例报告中记录了丰富的患者时间轨迹,但传统的机器学习方法依赖于结构化数据时常常未充分利用这些数据。在本文中,我们提出了从时间序列文本中进行预测的问题,其中通过LLM辅助注释管道提取的时间戳临床发现作为主要输入。我们系统地评估了包括微调的基于解码器的大语言模型和基于编码器的变换器在内的多种模型在事件发生预测、时间顺序和生存分析任务上的表现。我们的实验结果显示,基于编码器的模型在短期和长期事件预测中始终表现出更高的F1得分和更好的时间一致性,而微调掩盖方法增强了排名性能。相比之下,在生存分析中,基于解码器的指令微调模型在早期预后设置中表现出相对优势。我们的灵敏度分析进一步证明了时间顺序的重要性,这需要临床时间序列的构建,相比之下,是LLMs传统训练中输入文本的形式较少采用的时间顺序。这突显了时间有序数据集带来的额外好处,在广泛使用LLM的时代,对时间任务有重要的含义。