LLM2D

摘要

arXiv:2505.09805v1 声明类型: cross 摘要：对患者亚群进行聚类对于个性化护理和有效使用资源至关重要。传统的聚类方法在处理高维度和异质的医疗健康数据时存在困难，并缺乏上下文理解。这项研究使用低收入国家（LIC）的儿童脓毒症数据集评估了基于大型语言模型（LLM）的聚类方法与经典方法的效果，该数据集包含2,686条记录，其中包含28个数值变量和119个分类变量。患者记录被序列化成文本，并且在有和没有聚类目标的情况下进行了序列化。使用量化的LLAMA 3.1 8B、DeepSeek-R1-Distill-Llama-8B带低秩适应（LoRA）以及Stella-En-400M-V5模型生成嵌入。将k-means聚类应用于这些嵌入。经典的比较包括在UMAP和FAMD降维混合数据上应用K-Medoids聚类。通过轮廓得分和统计测试评估聚类的质量和独特性。Stella-En-400M-V5获得了最高的轮廓得分（0.86）。带有聚类目标的LLAMA 3.1 8B在更高的聚类数量时表现更好，能够识别出具有不同营养、临床和社会经济特征的亚群。基于LLM的方法通过捕捉更丰富的上下文和优先考虑关键特征，超越了经典技术。这些结果突显了在资源有限的环境中，LLM在上下文表型和知情决策方面的潜在价值。