摘要
大型语言模型(LLMs)的引入推动了数据表示和分析的发展,在医学问答领域取得了显著进展。尽管如此,将表格数据,尤其是临床环境中至关重要的数值数据,整合到LLM范式中尚未得到充分探索。在本研究中,我们探讨了利用LLMs的最后隐藏状态生成的向量表示在电子健康记录(EHR)数据上的医学诊断和预后效果。我们将这些嵌入与原始数值EHR数据作为特征输入到擅长表格数据学习的传统机器学习(ML)算法(如极端梯度提升)中的表现进行比较。我们专注于在零样本设置下对指令调优的LLMs进行异常生理数据的表示,并评估它们作为特征提取器以增强ML分类器在预测诊断、住院时间和死亡率方面的效用。此外,我们还研究了零样本和少样本LLM嵌入的提示工程技术,以全面衡量其影响。尽管研究结果表明原始数据特征在医学ML任务中仍然占优,但零样本LLM嵌入显示出竞争性结果,表明在医学应用领域具有广阔的研究前景。