LLM2D

摘要

arXiv:2502.02917v1 通知类型: cross 摘要：符号回归（SR）具有从观测数据中揭示潜在的数学和物理关系的巨大潜力。然而，可能表达式的庞大组合空间为在线搜索方法和预训练的变压器模型带来了重大挑战。此外，当前最先进的方法通常不考虑领域专家的先验知识，也不支持在方程发现过程中与模型的迭代交互。为了解决这些挑战，我们提出了符号Q网络（Sym-Q），这是一种用于大规模符号回归的先进交互框架。与之前的大规模基于变压器的SR方法不同，Sym-Q利用强化学习，而不依赖于基于变压器的解码器。这种表述允许代理通过使用任何类型的树编码器进行离线强化学习来学习，从而实现更高效的训练和推理。此外，我们提出了一个协同设计机制，其中基于强化学习的Sym-Q在方程发现过程的任何阶段都促进了与领域专家的有效交互。用户可以动态修改生成表达式的节点，并与代理合作，将数学表达式调整为最好地适应问题并符合假设的物理定律，特别是在有预期行为的部分先验知识时。我们的实验表明，预训练的Sym-Q在具有挑战性的SSDNC基准上超过了现有SR算法。此外，我们在真实世界案例中实验性地表明，通过交互式协同设计机制可以进一步增强其性能，Sym-Q的表现比其他最先进的模型提高了更大的性能。我们的可复现代码可在https://github.com/EPFL-IMOS/Sym-Q找到。