LLM2D

摘要

arXiv:2504.05167v1 类型: cross 摘要: 评分机制结构学习是学习贝叶斯网络（BN）的一种有效方法，贝叶斯网络被认为是表示和不确定性推理中最吸引人的概率图形模型之一。然而，随着变量数量的增加，结构学习的搜索空间呈超指数增长，这使得贝叶斯网络结构学习成为一项NP难问题以及组合优化问题（COP）。尽管在结构学习方面已经取得了许多启发式方法的成功，但贝叶斯网络结构学习的结果通常不尽如人意。受Q-learning的启发，本文提出了一种基于强化学习（RL）搜索策略的贝叶斯网络结构学习算法，名为RLBayes。该方法借鉴了强化学习的理念，旨在通过维护一个动态的Q表来记录和指导学习过程。通过创建和维护动态Q表，RLBayes能够在有限的空间内存储无限的搜索空间，从而利用Q-learning实现贝叶斯网络的结构学习。不仅从理论上证明了RLBayes可以收敛到全球最优的贝叶斯网络结构，而且实验结果也证明了RLBayes的效果优于几乎所有其他启发式搜索算法。