摘要
arXiv:2502.10263v1 交叉公开类型:交叉
摘要:追踪研究论文中数据的提及和使用情况,对于提高数据的可发现性、质量和生产至关重要。然而,手动识别和分类大量学术文献中的数据集提及是一项资源密集型且不可扩展的任务。本文提出了一种基于机器学习的框架,通过利用大型语言模型(LLMs)、合成数据和两阶段微调过程,自动化地在不同研究领域中检测数据集提及。我们采用零样本从研究论文中提取数据集提及,采用LLM作为裁判进行质量评估,并使用一个推理代理进行细化处理,生成一个弱监督合成数据集。Phi-3.5-mini指令模型预微调于此数据集,随后在手动注释子集上进行微调。在推理阶段,基于ModernBERT的分类器高效地过滤数据集提及,减少了计算开销同时保持高召回率。在保留的手动注释样本上进行评估,我们微调的模型在数据集提取准确性上优于NuExtract-v1.5和GLiNER-large-v2.1。我们的结果表明,LLM生成的合成数据可以有效解决训练数据稀缺问题,提高低资源环境下的泛化能力。该框架提供了一种可扩展的数据集使用监测途径,增强透明度,并支持研究人员、资助者和决策者识别数据缺口,以促进基于有效决策的数据可访问性。