LLM2D
当重复序列驱动词汇:T2T灵长类基因组的字节对编码分析
When repeats drive the vocabulary: a Byte-Pair Encoding analysis of T2T primate genomes
作者: Marina Popova, Iaroslav Chelombitko, Aleksey Komissarov
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08918v1

摘要

arXiv:2505.08918v1 交叉类型: cross 摘要:telomere-to-telomere (T2T)基因组装配的出现为比较基因组学开辟了新的途径,然而对于基因组序列的有效分词策略仍鲜有探索。在本试点研究中,我们使用字节对编码(BPE)对包括三个人类装配在内的九个T2T灵长类基因组进行了应用,采用我们自定义的工具dnaBPE对固定词汇量为512,000个分词的独立BPE分词器进行了训练。我们的分析表明,所有装配之间仅有11,569个分词是共享的,而几乎991,854个分词仅属于单一基因组,这表明随着装配比较的增加,共享词汇量急剧下降。此外,基于分词重叠推导的系统发育树未能重现现有灵长类关系,这一差异归因于特定物种高度重复元素的不成比例影响。这些发现突显了BPE分词的双重性质:虽然它有效地压缩了重复序列,但其对高拷贝元素的敏感性限制了其作为通用工具在比较基因组学中的应用。我们讨论了潜在的混合策略和重叠重复序列处理方法,强调了在开发大规模基因组语言模型时对领域特定适应性的需求。用于本研究的dnaBPE工具是开源的,并可在https://github.com/aglabx/dnaBPE获得。