LLM2D
GenoTEX:与生物信息学家一致的自动化基因表达数据分析基准
GenoTEX: A Benchmark for Automated Gene Expression Data Analysis in Alignment with Bioinformaticians
作者: Haoyang Liu, Shuyu Chen, Ye Zhang, Haohan Wang
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2406.15341v2

摘要

arXiv:2406.15341v2 类型: replace-cross 摘要:近年来,机器学习的进步显著提升了从基因表达数据中识别与疾病相关的基因的能力。然而,这些过程常常需要大量的专业知识和人工努力,限制了其可扩展性。基于大型语言模型(LLM)的代理显示出自动化这些任务的潜力,因为它们的解决问题能力不断提升。为了支持这些方法的评估和开发,我们引入了GenoTEX,一个用于基因表达数据自动化分析的基准数据集。GenoTEX提供了解决广泛基因识别问题的标注代码和结果,涵盖数据集选择、预处理和统计分析,遵循计算基因组学的标准流程。基准数据集中包含了生物信息学家专家编写的标注,以确保准确性与可靠性。为了提供这些任务的基线,我们展示了GenoAgent,一个采用多步骤编程工作流程并具有灵活自我纠正机制的LLM代理团队,共同分析基因表达数据集。我们的实验展示了基于LLM方法在分析基因组数据方面的潜力,错误分析则突出了挑战并指出了未来改进的方向。我们建议GenoTEX作为评估和提升基因表达数据分析自动化方法的有前景的资源。基准数据集可在https://github.com/Liu-Hy/GenoTex获取。