LLM2D

摘要

分子基础模型正在成为加速分子设计、材料科学和化学信息学的强大工具，它们利用 Transformer 架构来加速新材料和药物的发现，同时降低传统从头算方法的计算成本。然而，目前的模型受到封闭词汇量标记器的限制，这些标记器无法捕捉到分子结构的全部多样性。在这项工作中，我们系统地评估了 13 种化学专用标记器对 SMILES 语言的覆盖范围，揭示了巨大的差距。利用 N 元语言模型，我们评估了标记器选择对模型性能的影响，并量化了未知标记的信息损失。我们引入了两个新的标记器，smirk 和 smirk-gpe，它们可以表示完整的 OpenSMILES 规范，同时避免了现有标记器的缺陷。我们的工作强调了开放词汇量建模对于分子基础模型的重要性，以及化学信息学需要化学多样化的基准。