LLM2D

摘要

本文介绍了语法强化学习（GRL），这是一种强化学习算法，它利用蒙特卡洛树搜索（MCTS）和一个在无上下文语法（CFG）框架内模拟下推自动机（PDA）的变换器架构。以高效地计算图中路径和循环的问题为例，这是网络分析、计算机科学、生物学和社会科学中的一个关键挑战，GRL 发现了用于路径/循环计数的新矩阵公式，与最先进的方法相比，计算效率提高了两到六倍。我们的贡献包括：（i）生成在 CFG 内运行的语法变换器的框架；（ii）开发用于优化语法结构内公式的 GRL；（iii）发现用于图子结构计数的新公式，从而显著提高了计算效率。