LLM2D
GOLLuM:高斯过程优化的大语言模型——通过贝叶斯优化重新构架大语言模型微调
GOLLuM: Gaussian Process Optimized LLMs -- Reframing LLM Finetuning through Bayesian Optimization
作者: Bojana Rankovi\'c, Philippe Schwaller
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.06265v2

摘要

arXiv:2504.06265v2 通知类型: replace-cross 摘要:大型语言模型(LLMs)可以在其潜在空间中编码复杂的关系,但在不确定性下的优化利用仍然具有挑战性。我们通过重新将LLM微调重新框定为通过深度核方法进行高斯过程(GP)边际似然优化来解决这一缺口。我们引入了基于LLM的深度核,与GP联合优化以保留两者的好处——LLM提供丰富的灵活输入空间供贝叶斯优化使用,GP则用带有预测不确定性的方式来建模这个空间以实现更高效的采样。在Buchwald-Hartwig反应优化中,我们的方法在50次优化迭代中几乎将高表现反应的发现率提高了近一倍(从顶级反应的24%提高到43%的覆盖范围)。我们还发现,在不需要特殊特征的情况下,相对于专有的表示,我们的方法提高了14%。在涵盖从通用化学到反应和分子性质优化的19项基准测试中,我们的方法展示了其鲁棒性、普遍性和一致的改进:(1)任务,(2)LLM架构(编码器、解码器、编码器-解码器),(3)预训练领域(与化学相关的或通用的),以及(4)超参数设置(在单个数据集上调整一次)。最后,我们通过联合LLM-GP优化中的边际似然隐式执行对比学习,对齐表示来实现:(1)更好的结构嵌入空间,(2)改进的不确定性校准,以及(3)更高效的采样——而无需任何外部损失。这项工作不仅提供了样本高效优化的实际进步,还揭示了有效贝叶斯优化的奥秘。