LLM2D

摘要

arXiv:2410.15198v3 公告类型: 替换摘要：准确分类与癌症相关的医学摘要对于医疗管理和研究至关重要。然而，由于隐私问题和临床数据的复杂性，获得大型标注数据集在医学领域极具挑战性。标注数据的稀缺性阻碍了开发有效的机器学习模型来对癌症文档进行分类。为了解决这一挑战，我们呈现了一个包含1,874篇生物医学摘要的策展数据集，这些摘要被分类为甲状腺癌、结肠癌、肺癌和普通话题。我们的研究重点在于利用此数据集来提高分类性能，尤其是在数据稀缺的情况下。我们引入了一种具有多个图注意力层的残差图注意网络（R-GAT），该网络可以捕捉与癌症相关的文档中的语义信息和结构关系。我们将R-GAT模型与各种技术进行比较，包括基于变换器的模型如双向编码器表示（BERT）、RoBERTa，以及领域特定模型如BioBERT和Bio+ClinicalBERT。我们还评估了深度学习模型（CNNs、LSTMs）和传统机器学习模型（逻辑回归、SVM）。此外，我们探讨了结合深度学习模型的集成方法，以提高分类性能。我们评估了各种特征提取方法，包括Term Frequency-Inverse Document Frequency（TF-IDF）以及uni-gram和bi-gram，Word2Vec，以及BERT和RoBERTa的分词器。R-GAT模型优于其他技术，在甲状腺癌上实现了精度、召回率和F1分数为0.99、0.97和0.98；结肠癌上实现了0.96、0.94和0.95；肺癌上实现了0.96、0.99和0.97；普通话题上实现了0.95、0.96和0.95。