LLM2D

摘要

arXiv:2410.21591v2 通知类型: 替换摘要：数据科学在生物医学研究中发挥着关键作用，但需要具备编码和医疗数据分析专业知识的专家。大型语言模型（LLMs）在支持医疗任务和一般编码测试中显示出巨大潜力。然而，现有的评估未能评估其在生物医学数据科学方面的能力，特别是在处理多样化的数据类型，例如基因组和临床数据方面。为应对这一缺口，我们开发了一个基准测试，该基准测试源自对39篇已发表研究的分析。该基准包括293个编码任务（其中128个是Python的，165个是R的），这些任务是基于真实的TCGA类型基因组和临床数据进行的。我们的研究结果表明，原始提示的LLMs表现不佳，这主要是由于在遵循输入指令、理解目标数据以及遵守标准分析实践方面存在不足。接下来，我们对六种最先进的LLMs和高级适应方法进行了基准测试，发现其中两种方法特别有效：chain-of-thought提示，它为数据分析提供了一个逐步计划，代码准确性提高了21%（56.6%相比35.3%）；以及自我反思，使LLMs能够迭代地改进错误代码，代码准确性提高了11%（45.5%相比34.3%）。基于这些见解，我们开发了一个平台，将LLMs集成到数据科学工作流中，以供医疗专业人员使用。在一项涉及五名医疗专业人员的用户研究中，我们发现LLMs虽然无法完全自动化编程任务，但能够显著简化编程过程。我们发现，他们提交的80%的代码解决方案是由LLM生成的代码提供的，某些情况下高达96%的代码重用。我们的分析强调了在专业工作流程中集成LLMs在生物医学研究中增强数据科学效率的潜力。