LLM2D

摘要

arXiv:2502.02917v2 通知类型: 交叉替换摘要：符号回归（SR）在从观测数据中揭示潜在的数学和物理关系方面具有巨大的潜力。然而，可能表达式的庞大组合空间对在线搜索方法和预训练的变压器模型构成了重大挑战。此外，当前最先进的方法通常不考虑领域专家的先验知识，并且不支持在方程发现过程中与模型进行迭代交互。为了解决这些挑战，我们提出了一种名为符号Q网络（Sym-Q）的高级交互框架，用于大规模符号回归。与之前的基于变压器的大型符号回归方法不同，Sym-Q 利用强化学习而无需依赖于变压器解码器。这种形式允许智能体通过离线强化学习使用任何类型的树编码器进行学习，从而提高了训练和推断的效率。此外，我们提出了一种协同设计机制，其中基于强化学习的 Sym-Q 在方程发现过程的任何阶段都促进了与领域专家的有效交互。用户可以动态修改生成表达式的节点，与智能体协作，将数学表达式调整为最好地适应问题，并与假设的物理定律保持一致，尤其是当有部分预期行为的先验知识时。我们的实验表明，预训练的 Sym-Q 在具有挑战性的 SSDNC 基准上超过了现有的 SR 算法。此外，我们在实际案例上进行的实验表明，交互式协同设计机制可以进一步提升其性能，Sym-Q 的性能提升程度超过了其他最先进的模型。我们的可复现代码可在 https://github.com/EPFL-IMOS/Sym-Q 获取。