LLM2D

摘要

在不断增长的学术研究成果中识别出关键研究是进行高质量研究的内在方面。循证医学中使用的系统综述流程将此形式化为研究计划中必须遵循的程序。然而，它带来了越来越大的负担，因为需要花费大量时间来识别特定主题的重要研究文章。在这项工作中，我们开发了一种方法来构建一个通用过滤系统，该系统将以自然语言描述所需内容形式提出的研究问题与通过应用广泛搜索词获得的候选文章集进行匹配。我们的结果表明，在生物医学文献上进行预训练，然后针对特定任务进行微调的 Transformer 模型为这个问题提供了一个有希望的解决方案。该模型可以消除大多数研究问题中大量不相关的文章。此外，对我们训练数据中特定研究问题的分析表明，自然途径可以进一步改进。