LLM2D
自动标注2000亿例生命拯救级数据集:一个大规模临床试验结局基准
Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
作者: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2406.10292v2

摘要

arXiv:2406.10292v2 宣告类型:替换 摘要:背景:全球药物发现和开发的成本超过每年2000亿美元,临床试验结果在新药的监管审批中起着关键作用,并影响患者的治疗结果。尽管临床试验结果的重要性不言而喻,但高质量的大规模临床试验结果数据并未公开,限制了临床试验结果预测模型的发展。 方法:我们介绍了临床试验结果(CTO)知识库,这是一个完全可重现、大规模(大约包含125,000项药品和生物制品临床试验)的开放源代码临床试验信息库,包括大型语言模型(LLM)对出版物的解释、不同阶段匹配的临床试验、新闻的情感分析、临床试验赞助商的股票价格以及其他与临床试验相关的指标。在此知识库的基础上,我们还对2020-2024年的部分临床试验进行了手动注释。 结果:我们通过生成高质量的临床试验结果标签对知识库的品质进行了评估,这些标签与之前发布的专家注释有很强的一致性,达到了第3期临床试验94的F1分数,所有期别的临床试验为91。此外,我们在我们手动注释的数据集上基准测试了一系列标准机器学习模型,指出了近期临床试验分布的变化和持续更新标注方法的必要性。 结论:通过分析CTO在近期临床试验中的表现,我们展示了对最近高质量临床试验结果标签的需求。我们将在https://chufangao.github.io/CTOD上向公众发布我们的知识库和标签,该知识库还将定期更新,以支持在临床试验结果研究中的持续研究,从而提供可能优化药物开发过程的见解。