LLM2D

摘要

arXiv:2502.11085v1 Announce Type: cross 摘要：本文挑战了原子性质预测领域近期的一种范式，该范式认为进展与数据集大小和计算资源的增加有关。我们展示了在精心选择的相关数据集上进行预训练可以匹配甚至超越大规模预训练的效果，同时仅使用不到1/24的计算成本。我们介绍了分子相似度指数（CSI），这是一种受计算机视觉中Fréchet Inception Distance启发的新颖度量方法，用于量化上游预训练数据集与下游任务之间的对齐程度。通过选择CSI距离最小的最相关数据集，我们展示了在较小的、有针对性的数据集上进行预训练的模型始终优于在大规模混合数据集（如JMP）上进行预训练的模型，即使这些较大的数据集包含了相关数据集。出乎意料的是，我们还发现，不加选择地增加更多的数据可能会在数据与手头任务不匹配的情况下降低模型性能。我们的研究结果突显了在原子性质预测的预训练中，质量往往优于数量。