LLM2D
临床试验记录中数据共享声明的分类器
Classifiers of Data Sharing Statements in Clinical Trial Records
作者: Saber Jelodari Mamaghani, Cosima Strantz, Dennis Toddenroth
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12362v1

摘要

arXiv:2502.12362v1 宣告类型: cross 摘要:临床试验的数字个体参与者数据(IPD)越来越多地被分配用于潜在的科学研究再利用。然而,识别可用的IPD需要对大型数据库中的数据共享声明(DSS)进行文本解释。计算语言学的最新进展包括预训练语言模型,它们承诺简化基于文本输入的有效分类器的实现。在ClinicalTrials.gov的5,000个文本DSS子集中,我们评估了基于领域特定预训练语言模型的分类器在重现原始可用性类别以及手动标注标签方面的效果。常见的评估指标表明,预测手动标注的分类器表现优于学习输出原始可用性类别的分类器。这表明,DSS描述中包含适用的信息,而这些信息没有反映在可用性类别中,因此这样的分类器有望辅助大型试验数据库中可用IPD的自动识别。