LLM2D

摘要

arXiv:2503.23491v1 宣传类型:横跨领域摘要：聚合物信息学的进步在整合机器学习（ML）技术的帮助下显著推进了，这使得聚合物性质的快速预测成为可能，并加速了高性能聚合材料的发现。然而，该领域缺乏一个涵盖预测准确性、不确定性量化、ML可解释性和聚合物合成性的标准化工作流程。在本研究中，我们引入了POINT$^{2}$（POlymer INformatics Training and Testing），这是一个全面的基准数据库和协议，旨在解决这些关键挑战。利用现有的带标签数据集和未标记的PI1M数据集——这是通过训练在现实聚合物上的递归神经网络生成的一百多万种虚拟聚合物的集合，我们开发了一个ML模型集合，包括分位数随机森林、具有丢弃的多层感知机、图神经网络以及预训练的大语言模型。这些模型与不同的聚合物表示相结合，如Morgan、MACCS、RDKit、拓扑、原子对指纹和基于图的描述符，以实现一系列性质的性能预测、不确定性估计、模型可解释性以及基于模板的聚合物合成，包括气体渗透性、热导率、玻璃转变温度、熔点、自由体积分数和密度。POINT$^{2}$数据库可以作为聚合物信息学社区进行聚合物发现和优化的重要资源。