LLM2D
微笑:面向分子基础模型的原子级完备分词器
Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15370v1

摘要

分子基础模型正在成为加速分子设计、材料科学和化学信息学的强大工具,它们利用 Transformer 架构来加速新材料和药物的发现,同时降低传统从头算方法的计算成本。然而,目前的模型受到封闭词汇量标记器的限制,这些标记器无法捕捉到分子结构的全部多样性。在这项工作中,我们系统地评估了 13 种化学专用标记器对 SMILES 语言的覆盖范围,揭示了巨大的差距。利用 N 元语言模型,我们评估了标记器选择对模型性能的影响,并量化了未知标记的信息损失。我们引入了两个新的标记器,smirk 和 smirk-gpe,它们可以表示完整的 OpenSMILES 规范,同时避免了现有标记器的缺陷。我们的工作强调了开放词汇量建模对于分子基础模型的重要性,以及化学信息学需要化学多样化的基准。