摘要
大型语言模型(LLMs)如 ChatGPT 已经表明,即使用噪声先验数据训练,它们也能通过上下文学习(ICL)和预训练技术有效地泛化到新任务。受此启发,我们探索了类似方法是否可以应用于科学基础模型(SFMs)。我们的方法结构如下:(i) 我们通过任意数学词典的线性组合构建偏微分方程 (PDE) 的解,以低成本的物理信息神经网络 (PINN) 为基础,收集近似先验数据;(ii) 我们利用具有自注意力和交叉注意力机制的 Transformer 架构,在零样本设置下预测 PDE 解,而无需了解控制方程;(iii) 我们在关于一维对流扩散反应方程的实验中提供了证据,证明即使使用近似先验数据,预训练仍然稳健,对测试精度只有微弱的影响。值得注意的是,这一发现为用现实的低成本数据(而不是或与高成本数值数据结合)预训练 SFMs 开辟了道路。这些结果支持了这样的推测,即 SFMs 可以像 LLMs 一样得到改进,而从互联网上爬取的句子集合几乎不可能完全清理。