LLM2D
通过从出版物中提取增强生成来自动创建生物计算对象,以增强科学可重复性
Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15076v1

摘要

arXiv:2409.15076v1 公告类型: 交叉 摘要: 计算能力和可访问性的指数级增长已经改变了生物信息学研究的复杂性和规模,迫切需要标准化文档以确保透明度、可重复性和法规遵从性。IEEE BioCompute Object (BCO) 标准解决了这一需求,但由于创建合规文档的额外开销,尤其是在遗留研究中,面临着采用挑战。本文提出了一种利用检索增强生成 (RAG) 和大型语言模型 (LLMs) 自动从科学论文中创建 BCO 的新方法。我们描述了 BCO 助手工具的开发,该工具利用 RAG 从源论文和相关代码库中提取相关信息,解决了诸如 LLM 幻觉和长上下文理解等关键挑战。该实现包括优化的检索过程,包括两遍检索与重新排序,并采用精心设计的提示词来处理每个 BCO 领域。我们讨论了该工具的架构、可扩展性和评估方法,包括自动化和手动评估方法。BCO 助手展示了显著减少生物信息学研究事后文档编制所需时间和精力的潜力,同时保持与标准的合规性。这种方法为 AI 辅助的科学文档编制和从出版物中提取知识开辟了途径,从而增强了科学的可重复性。BCO 助手工具和文档可在 https://biocompute-objects.github.io/bco-rag/ 获取。