LLM2D
从临床文本时间序列进行预测:编码器和解码器语言模型家族的适应性改进
Forecasting from Clinical Textual Time Series: Adaptations of the Encoder and Decoder Language Model Families
作者: Shahriar Noroozizadeh, Sayantan Kumar, Jeremy C. Weiss
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.10340v2

摘要

arXiv:2504.10340v2 修复类型: 交叉替换 摘要: 临床病例报告包含了丰富的患者随时间变化的轨迹,但传统依赖结构化数据的机器学习方法往往未能充分利用这些信息。在这项工作中,我们介绍了从文本时间序列进行预测的问题,其中通过LLM辅助注释管道提取的时间戳临床发现作为预测的主要输入。我们系统地评估了包括微调的基于解码器的大语言模型和基于编码器的变换器在内的各种模型,用于事件发生预测、时间排序和生存分析任务。我们的实验表明,基于编码器的模型在短期和长期事件预测中的F1分数和时间一致性方面始终表现出色,而微调的掩码方法则提升了排名性能。相比之下,在生存分析任务中,指令调整的解码器模型在早期预后设置中表现出相对优势。进一步的敏感性分析表明,时间排序相较于文本排序(LLM传统上训练的文本输入格式),在临床时间序列构建方面更具重要性。这强调了有序文本语料库的优势,特别是在广泛使用LLM的时代,对于时间任务有重要的影响。