摘要
arXiv:2410.21591v2 通知类型: 替换
摘要:数据科学在生物医学研究中发挥着关键作用,但需要具备编码和医疗数据分析专业知识的专家。大型语言模型(LLMs)在支持医疗任务和一般编码测试中显示出巨大潜力。然而,现有的评估未能评估其在生物医学数据科学方面的能力,特别是在处理多样化的数据类型,例如基因组和临床数据方面。为应对这一缺口,我们开发了一个基准测试,该基准测试源自对39篇已发表研究的分析。该基准包括293个编码任务(其中128个是Python的,165个是R的),这些任务是基于真实的TCGA类型基因组和临床数据进行的。我们的研究结果表明,原始提示的LLMs表现不佳,这主要是由于在遵循输入指令、理解目标数据以及遵守标准分析实践方面存在不足。接下来,我们对六种最先进的LLMs和高级适应方法进行了基准测试,发现其中两种方法特别有效:chain-of-thought提示,它为数据分析提供了一个逐步计划,代码准确性提高了21%(56.6%相比35.3%);以及自我反思,使LLMs能够迭代地改进错误代码,代码准确性提高了11%(45.5%相比34.3%)。基于这些见解,我们开发了一个平台,将LLMs集成到数据科学工作流中,以供医疗专业人员使用。在一项涉及五名医疗专业人员的用户研究中,我们发现LLMs虽然无法完全自动化编程任务,但能够显著简化编程过程。我们发现,他们提交的80%的代码解决方案是由LLM生成的代码提供的,某些情况下高达96%的代码重用。我们的分析强调了在专业工作流程中集成LLMs在生物医学研究中增强数据科学效率的潜力。