LLM2D

摘要

数学公式是人类数千年来探索自然规律智慧的结晶。用简洁的数学公式描述复杂的自然规律是科学家们不懈的追求，也是人工智能的一大挑战。这一领域被称为符号回归（SR）。符号回归最初被表述为一个组合优化问题，并使用遗传编程（GP）和强化学习算法来解决。然而，GP对超参数敏感，这两种算法效率低下。为了解决这个问题，研究人员将数据到表达式的映射视为一个翻译问题。并引入了相应的大规模预训练模型。然而，数据和表达骨架并不像两种语言那样具有非常明确的词对应关系。相反，它们更像是两种模态（例如，图像和文本）。因此，在本文中，我们提出了MMSR。将SR问题作为一个纯粹的多模态问题来解决，并在训练过程中引入对比学习进行模态对齐，以促进后续的模态特征融合。值得注意的是，为了更好地促进模态特征融合，我们采用了同时训练对比学习损失和其他损失的策略，这只需要一步训练，而不是先训练对比学习损失，然后再训练其他损失。因为我们的实验证明，一起训练可以使特征提取模块和特征融合模块更好地磨合。实验结果表明，与多个大规模预训练基线相比，MMSR在包括SRBench在内的多个主流数据集上实现了最先进的结果。我们的代码已在https://github.com/1716757342/MMSR开源。