LLM2D
基于查询的生物医学研究中文档级科学证据提取
Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies
作者: Massimiliano Pronesti, Joao Bettencourt-Silva, Paul Flanagan, Alessandra Pascale, Oisin Redmond, Anya Belz, Yufang Hou
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.06186v2

摘要

arXiv:2505.06186v2 宣告类型: replace-cross 摘要:从生物医学研究中提取科学证据以回答临床研究问题(例如,干细胞移植是否能改善接受临床上难治性克罗恩病患者的治疗效果,与安慰剂相比?)是综合生物医学证据的关键步骤。在这篇论文中,我们重点关注具有矛盾证据的临床问题的文档级科学证据提取任务。为了支持这一任务,我们利用Cochrane系统综述中的森林图创建了一个名为CochraneForest的数据集。该数据集包含202个标注的森林图、相关的临床研究问题、研究的全文以及特定的研究结论。在此基础上,我们提出了一种名为URCA(Uniform Retrieval Clustered Augmentation)的检索增强生成框架,旨在解决证据提取的独特挑战。实验结果显示,与现有最佳方法相比,URCA在该任务上的F1分数上高出10.3%。然而,结果也突显了CochraneForest的复杂性,将其确立为推进自动化证据合成系统的具有挑战性的测试平台。