LLM2D
GenoTEX:一种用于自动化基因表达数据分析的LLM代理基准
GenoTEX: An LLM Agent Benchmark for Automated Gene Expression Data Analysis
作者: Haoyang Liu, Shuyu Chen, Ye Zhang, Haohan Wang
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2406.15341v3

摘要

arXiv:2406.15341v3 宣告类型: replace-cross 摘要: 最近在机器学习方面的进展显著提高了从基因表达数据中识别与疾病相关的基因的能力。然而,这些过程通常需要大量的专业知识和手动努力,限制了其可扩展性。基于大型语言模型(LLM)的代理已经显示出通过它们不断增加的解决问题能力来自动执行这些任务的潜力。为了支持这些方法的评估和发展,我们介绍了GenoTEX,一个用于自动分析基因表达数据的基准数据集。GenoTEX提供了一整套管道代码和结果,涵盖从数据集选择、预处理到统计分析的广泛基因-性状关联问题。该基准遵循计算基因组学标准。基准还包含生物信息学家编写的专家审核注释,以确保准确性和可靠性。为了为这些任务提供基准,我们介绍了GenoAgent,这是一个基于多步骤编程工作流的LLM代理团队,在此工作流中,它们具有灵活的自我矫正机制,并可协作分析基因表达数据集。我们的实验展示了基于LLM的方法在分析基因组数据方面的潜力,而误差分析则揭示了挑战并指出了未来改进的领域。我们建议GenoTEX作为基准测试和增强基因表达数据自动分析方法的有前景资源。基准数据集可在https://github.com/Liu-Hy/GenoTEX获取。