LLM2D

摘要

大型语言模型（LLMs）的引入推动了数据表示和分析的发展，在医学问答领域取得了显著进展。尽管如此，将表格数据，尤其是临床环境中至关重要的数值数据，整合到LLM范式中尚未得到充分探索。在本研究中，我们探讨了利用LLMs的最后隐藏状态生成的向量表示在电子健康记录（EHR）数据上的医学诊断和预后效果。我们将这些嵌入与原始数值EHR数据作为特征输入到擅长表格数据学习的传统机器学习（ML）算法（如极端梯度提升）中的表现进行比较。我们专注于在零样本设置下对指令调优的LLMs进行异常生理数据的表示，并评估它们作为特征提取器以增强ML分类器在预测诊断、住院时间和死亡率方面的效用。此外，我们还研究了零样本和少样本LLM嵌入的提示工程技术，以全面衡量其影响。尽管研究结果表明原始数据特征在医学ML任务中仍然占优，但零样本LLM嵌入显示出竞争性结果，表明在医学应用领域具有广阔的研究前景。