LLM2D

摘要

arXiv:2406.10292v2 宣告类型: 替换摘要: 背景：药物发现和开发的全球成本超过每年200亿美元，临床试验结果在新药的监管审批中发挥着关键作用，并影响患者结果。尽管如此，高质量的临床试验结果数据并未广泛公开，限制了临床试验结果预测建模的进展。方法：我们介绍了临床试验结果（CTO）知识库，这是一个完全可重复的、大规模（约125,000项药物和生物制品试验）的临床试验信息开源库，其中包括大型语言模型（LLM）对出版物的解释、匹配各阶段的试验、新闻的情感分析、试验赞助商的股票价格以及其他相关的试验指标。在此知识库的基础上，我们还手动标注了从2020年至2024年的某些临床试验。结果：我们通过生成高质量的试验结果标签来评估知识库的质量，这些标签与之前发布的专家标注有着很强的一致性，3期临床试验的F1分数为94，所有阶段的F1分数为91。此外，我们在手动标注的数据集上对一系列标准机器学习模型进行了基准测试，突显了近期试验数据分布的变化及其需要持续更新的标注方法。结论：通过分析CTO在近期试验中的性能，我们表明了需要高质量和最新的试验结果标签。我们将我们的知识库和标签发布在https://chufangao.github.io/CTOD，并将定期更新以支持临床试验结果的持续研究，为优化药物开发过程提供见解。