LLM2D
EDBench:大型分子建模电子密度数据集
EDBench: Large-Scale Electron Density Data for Molecular Modeling
作者: Hongxin Xiang, Ke Li, Mingquan Liu, Zhixiang Cheng, Bin Yao, Wenjie Du, Jun Xia, Li Zeng, Xin Jin, Xiangxiang Zeng
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09262v1

摘要

arXiv:2505.09262v1 宣传类型: cross 摘要: 当前的分子机器学习力场(MLFFs)通常专注于学习原子、分子和简单的量子化学性质(如能量和力),但忽视了在准确理解分子力场(MFFs)方面电子密度(ED)$\rho(r)$的重要性。ED描述了在特定位置周围找到电子的概率,根据Hohenberg-Kohn定理,它唯一地确定了相互作用多粒子系统的所有基态性质(如能量、分子结构等)。然而,计算ED依赖于耗时的第一性原理密度泛函理论(DFT),这导致了大规模ED数据的缺乏,并限制了其在MLFFs中的应用。在本文中,我们引入了EDBench,这是一个大规模、高质量的电子尺度电子密度数据集,旨在推动基于学习的研究。基于PCQM4Mv2构建,EDBench提供了准确的电子密度数据,涵盖了330万种分子。为了全面评估模型理解和利用电子信息的能力,我们设计了一系列以电子密度为中心的基准任务,涵盖预测、检索和生成。对我们所测试的几种最先进的方法的评估表明,从EDBench学习不仅是可行的,而且可以实现高精度。此外,我们展示了基于学习的方法可以在保持相近精度的同时,显著降低计算成本,相对于传统的DFT计算。EDBench的所有数据和基准数据将免费提供,为基于电子密度的药物发现和材料科学奠定了坚实的基础。