LLM2D

摘要

arXiv:2402.16882v2 伤者类型: replace-cross 摘要：合成方法的底物容忍性和普遍性通常在“底物范围”表中展示。然而，底物选择经常存在一个被广泛讨论的出版偏倚：不成功的实验或产量低的结果很少被报告。在这项工作中，我们通过一种新颖的神经网络训练策略——底物范围对比学习，深入探讨了这种出版偏倚与化学反应性的关系，而不仅仅是通过产量分布的简单分析。通过将已报告的底物视为正样本，未报告的底物视为负样本，我们的对比学习策略教会模型基于发表的底物范围表中的历史趋势，在数值嵌入空间内对分子进行分组。通过对2010-2015年间CAS内容集合$^{\text{TM}}$中的20,798个芳基卤化物的训练，我们证明了学习到的嵌入与物理有机反应性描述符之间存在相关性，这既通过直观的可视化分析也通过定量回归分析进行了展示。此外，这些嵌入还适用于各种反应建模任务，如产率预测和区域选择性预测，说明历史反应数据可以作为预训练任务的潜力。这项工作不仅展示了针对化学文献数据的一种新的特定化学领域的机器学习训练策略，而且还提供了一种独特的方法来揭示反映在出版物中底物选择趋势的化学反应性趋势。