LLM2D
谨防超参数优化导致过拟合!
Be aware of overfitting by hyperparameter optimization!
作者: Igor V. Tetko, Ruud van Deursen, Guillaume Godin
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2407.20786v2

摘要

超参数优化在机器学习中非常常用。然而,对大型参数空间的优化可能导致模型过拟合。在最近关于溶解度预测的研究中,作者从不同的数据源收集了七个热力学和动力学溶解度数据集。他们使用了最先进的基于图的方法,并使用不同的数据清洗协议和超参数优化比较了为每个数据集开发的模型。我们的研究表明,超参数优化并不总是能产生更好的模型,这可能是因为使用相同的统计指标时发生了过拟合。使用预设的超参数可以计算出类似的结果,从而将计算量减少约 10000 倍。我们还通过添加一种基于自然语言处理smiles的表示学习方法(Transformer CNN)扩展了之前的分析。我们表明,在所有使用完全相同协议的分析集中,Transformer CNN 在 28 次两两比较中,有 26 次都比基于图的方法取得了更好的结果,并且所需时间仅为其他方法的一小部分。最后但同样重要的是,我们强调了使用完全相同的统计指标比较计算结果的重要性。