LLM2D

摘要

arXiv:2505.06186v1 交叉类型: cross 摘要：从生物医学研究中提取科学证据以回答临床研究问题（例如，干细胞移植是否能改善患有难治性克罗恩病的患者的生活质量，与安慰剂相比？）是综合生物医学证据的关键步骤。在本文中，我们重点研究具有冲突证据的临床问题的文档级科学证据提取任务。为了支持这一任务，我们利用科克伦系统综述中的森林图创建了一个名为CochraneForest的数据集。该数据集包含202个标注的森林图、相关临床研究问题、研究的全文以及研究特定的结论。基于CochraneForest，我们提出了URCA（Uniform Retrieval Clustered Augmentation），一个检索增强生成框架，旨在解决证据提取的独特挑战。我们的实验表明，URCA在该任务上的F1分数上比现有最佳方法高达到10.3%。然而，结果也突显了CochraneForest的复杂性，将其确立为推进自动化证据合成系统的具有挑战性的测试平台。