摘要
目标:人类基因组测序数据的庞大和复杂性给有效分析带来了挑战。这篇综述旨在研究自然语言处理 (NLP) 技术,特别是大型语言模型 (LLM) 和 Transformer 架构在破译基因组密码中的应用,重点关注标记化、Transformer 模型和调控注释预测。这篇综述的目标是评估最新文献中数据和模型的可访问性,从而更好地理解这些工具在处理基因组测序数据方面的现有能力和局限性。方法:遵循系统评价和荟萃分析的优选报告项目 (PRISMA) 指南,我们的范围界定综述涵盖了 PubMed、Medline、Scopus、Web of Science、Embase 和 ACM 数字图书馆。如果研究侧重于应用于基因组测序数据分析的 NLP 方法,则将其纳入,不限制发表日期或文章类型。结果:共选择了 26 项 2021 年至 2024 年 4 月发表的研究进行综述。综述强调,标记化和 Transformer 模型增强了基因组数据的处理和理解,其应用包括预测调控注释,例如转录因子结合位点和染色质可及性。讨论:将 NLP 和 LLM 应用于基因组测序数据解释是一个很有前景的领域,它可以帮助简化大规模基因组数据的处理,同时也能更好地理解其复杂结构。它有可能通过为基因组分析提供更高效和可扩展的解决方案来推动个性化医疗的进步。还需要进一步研究来讨论和克服当前的局限性,增强模型的透明度和适用性。