摘要
arXiv:2402.05306v2 宣告类型: replace-cross
摘要:符号回归(SR)在从观测数据中发现潜在的数学和物理关系方面具有巨大潜力。然而,可能表达式的庞大组合空间给在线搜索方法和预训练变压器模型带来了重大挑战。此外,当前最先进的方法通常不考虑领域专家的先验知识,并且不支持在方程发现过程中与模型的迭代交互。为了解决这些挑战,我们提出了符号Q网络(Sym-Q),这是一种先进的交互框架,适用于大规模符号回归。与以前的大规模基于变压器的SR方法不同,Sym-Q利用强化学习而不依赖于基于变压器的解码器。这种表述允许智能体通过使用任何类型的树编码器进行离线强化学习来学习,从而实现更高效的训练和推理。此外,我们提出了一个协同设计机制,其中基于强化学习的Sym-Q在方程发现过程中的任何阶段都促进与领域专家的有效交互。用户可以动态修改生成表达式的节点,与智能体协作,调整数学表达式以更好地适应问题并符合假设的物理定律,尤其是在预期行为有先验部分知识的情况下。我们的实验结果显示,预训练的Sym-Q在具有挑战性的SSDNC基准上超过了现有的SR算法。此外,我们在现实世界案例中实验显示,通过交互式的协同设计机制,其性能可以得到进一步提升,Sym-Q相比其他最先进的模型获得了更大的性能提升。我们的可复现代码可在https://github.com/EPFL-IMOS/Sym-Q获取。