LLM2D

摘要

大型语言模型（LLMs）如 ChatGPT 已经表明，即使用噪声先验数据训练，它们也能通过上下文学习（ICL）和预训练技术有效地泛化到新任务。受此启发，我们探索了类似方法是否可以应用于科学基础模型（SFMs）。我们的方法结构如下：(i) 我们通过任意数学词典的线性组合构建偏微分方程 (PDE) 的解，以低成本的物理信息神经网络 (PINN) 为基础，收集近似先验数据；(ii) 我们利用具有自注意力和交叉注意力机制的 Transformer 架构，在零样本设置下预测 PDE 解，而无需了解控制方程；(iii) 我们在关于一维对流扩散反应方程的实验中提供了证据，证明即使使用近似先验数据，预训练仍然稳健，对测试精度只有微弱的影响。值得注意的是，这一发现为用现实的低成本数据（而不是或与高成本数值数据结合）预训练 SFMs 开辟了道路。这些结果支持了这样的推测，即 SFMs 可以像 LLMs 一样得到改进，而从互联网上爬取的句子集合几乎不可能完全清理。