LLM2D
基于查询的生物医学研究中文档级科学证据提取
Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies
作者: Massimiliano Pronesti, Joao Bettencourt-Silva, Paul Flanagan, Alessandra Pascale, Oisin Redmond, Anya Belz, Yufang Hou
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.06186v1

摘要

arXiv:2505.06186v1 交叉类型: cross 摘要:从生物医学研究中提取科学证据以回答临床研究问题(例如,干细胞移植是否能改善患有难治性克罗恩病的患者的生活质量,与安慰剂相比?)是综合生物医学证据的关键步骤。在本文中,我们重点研究具有冲突证据的临床问题的文档级科学证据提取任务。为了支持这一任务,我们利用科克伦系统综述中的森林图创建了一个名为CochraneForest的数据集。该数据集包含202个标注的森林图、相关临床研究问题、研究的全文以及研究特定的结论。基于CochraneForest,我们提出了URCA(Uniform Retrieval Clustered Augmentation),一个检索增强生成框架,旨在解决证据提取的独特挑战。我们的实验表明,URCA在该任务上的F1分数上比现有最佳方法高达到10.3%。然而,结果也突显了CochraneForest的复杂性,将其确立为推进自动化证据合成系统的具有挑战性的测试平台。