LLM2D
smirk:用于分子基础模型的原子完备分词器
Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models
作者: Alexius Wadell, Anoushka Bhutani, Venkatasubramanian Viswanathan
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2409.15370v2

摘要

arXiv:2409.15370v2 公告类型: replace-cross 摘要:基于文本的基础模型已成为科学研究的重要组成部分,分子基础模型加速了分子设计和材料科学的进步。然而,现有的模型受限于封闭词汇量的分词器,只能捕获分子空间的一小部分。在本工作中,我们系统地评估了三十种分词器,包括19种化学专用分词器,它们对SMILES分子表示语言的覆盖范围,揭示了显著的差距。为了评估分词器选择的影响,我们引入n-克语文本模型作为低成本代理,并通过为分子性质预测训练和微调18种RoBERTa风格编码器来验证其有效性。为克服现有分词器的局限性,我们提出了两种新的分词器——Smirk和Smirk-GPE,它们全面覆盖了OpenSMILES规范。我们的结果强调了在化学信息学中采用开放词汇量建模和化学多样基准的必要性。提出的分词器框架系统地整合了核、电子和几何自由度;这促进了在药理学、农业、生物学和能量存储领域的应用。