LLM2D

摘要

arXiv:2410.15198v4 公告类型：替换摘要：准确分类与癌症相关的医学摘要对于医疗管理和研究至关重要。然而，由于隐私问题和临床数据的复杂性，在医疗领域获得大规模、标注的数据集具有挑战性。标注数据的匮乏阻碍了有效机器学习模型在癌症文档分类中的发展。为应对这一挑战，我们提供了一个由1,874篇生物医药摘要组成的精选数据集，这些摘要分为甲状腺癌、结肠癌、肺癌和通用主题。我们的研究重点在于利用这一数据集提高分类性能，特别是在数据稀缺的情况下。我们引入了一个结合了多层图注意力层的残差图注意网络（R-GAT），以捕捉与癌症相关的文档中的语义信息和结构关系。我们的R-GAT模型与包括基于Transformer的技术如双向编码器表示变换器（BERT）、RoBERTa，以及领域特定模型如BioBERT和Bio+ClinicalBERT在内的多种技术进行了比较。我们还评估了深度学习模型（CNNs、LSTMs）和传统的机器学习模型（逻辑回归、SVM）。此外，我们探索了将深度学习模型组合的集成方法以提高分类效果。各种特征提取方法也被评估，包括使用单词和双词的词频-逆文档频率（TF-IDF）、Word2Vec以及来自BERT和RoBERTa的分词器。R-GAT模型在甲状腺癌、结肠癌、肺癌和通用主题的精度、召回率和F1分数分别为0.99、0.97和0.98；0.96、0.94和0.95；0.96、0.99和0.97；0.95、0.96和0.95。