LLM2D
基于检索增强的上下文学习在疾病分类中的多模态大型语言模型
Retrieval-augmented in-context learning for multimodal large language models in disease classification
作者: Zaifu Zhan, Shuang Zhou, Xiaoshan Zhou, Yongkang Xiao, Jun Wang, Jiawen Deng, He Zhu, Yu Hou, Rui Zhang
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02087v1

摘要

arXiv:2505.02087v1 信息检索类型:新 摘要:目标:我们旨在动态检索具有信息性的演示,以增强多模态大规模语言模型(MLLMs)在疾病分类中的在上下文中学习。 方法:我们提出了一种检索增强的在上下文中学习(RAICL)框架,该框架结合了检索增强生成(RAG)和在上下文中学习(ICL),以自适应地选择具有相似疾病模式的演示,从而使MLLMs的ICL更为有效。具体而言,RAICL 检查来自多种编码器的嵌入,包括ResNet、BERT、BioBERT和ClinicalBERT,以检索合适的演示,并构建优化的对话提示,以促进ICL。我们使用两个实际的多模态数据集(TCGA和IU胸部X光片)评估了该框架,并评估了其在多个MLLMs(Qwen、Llava、Gemma)、嵌入策略、相似性度量和不同数量的演示方面的表现。 结果:RAICL 一致地提高了分类性能。在TCGA上,准确性从0.7854提高到0.8368;在IU胸部X光片上,准确性从0.7924提高到0.8658。多模态输入优于单模态输入,纯文本输入优于单独使用图像。每种模态中嵌入的信息丰富程度将决定哪种嵌入模型能获得更好的结果。少样本实验显示,增加检索示例的数量进一步提高了性能。在不同的相似性度量中,欧几里得距离取得了最高的准确性,而余弦相似度则获得了更好的宏F1分数。RAICL在各种MLLMs上表现出一致的改进,证实了其鲁棒性和多功能性。 结论:RAICL 提供了一种高效且可扩展的方法,以增强MLLMs在多模态疾病分类中的在上下文中学习。