LLM2D
Medical-GAT:利用图基残差网络进行有限数据场景下的癌症文档分类
Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data
作者: Elias Hossain, Tasfia Nuzhat, Shamsul Masum, Shahram Rahimi, Noorbakhsh Amiri Golilarz
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2410.15198v4

摘要

arXiv:2410.15198v4 公告类型:替换 摘要:准确分类与癌症相关的医学摘要对于医疗管理和研究至关重要。然而,由于隐私问题和临床数据的复杂性,在医疗领域获得大规模、标注的数据集具有挑战性。标注数据的匮乏阻碍了有效机器学习模型在癌症文档分类中的发展。为应对这一挑战,我们提供了一个由1,874篇生物医药摘要组成的精选数据集,这些摘要分为甲状腺癌、结肠癌、肺癌和通用主题。我们的研究重点在于利用这一数据集提高分类性能,特别是在数据稀缺的情况下。我们引入了一个结合了多层图注意力层的残差图注意网络(R-GAT),以捕捉与癌症相关的文档中的语义信息和结构关系。我们的R-GAT模型与包括基于Transformer的技术如双向编码器表示变换器(BERT)、RoBERTa,以及领域特定模型如BioBERT和Bio+ClinicalBERT在内的多种技术进行了比较。我们还评估了深度学习模型(CNNs、LSTMs)和传统的机器学习模型(逻辑回归、SVM)。此外,我们探索了将深度学习模型组合的集成方法以提高分类效果。各种特征提取方法也被评估,包括使用单词和双词的词频-逆文档频率(TF-IDF)、Word2Vec以及来自BERT和RoBERTa的分词器。R-GAT模型在甲状腺癌、结肠癌、肺癌和通用主题的精度、召回率和F1分数分别为0.99、0.97和0.98;0.96、0.94和0.95;0.96、0.99和0.97;0.95、0.96和0.95。