LLM2D

摘要

几十年后，回归森林继续提供最先进的准确性，在这方面超越了回归树甚至神经网络等替代机器学习模型。然而，作为一种集成方法，回归森林在可解释性方面通常远逊于回归树。在本研究中，我们重新审视了森林剪枝，这是一种旨在兼具回归森林的准确性和回归树的可解释性的方法。这种追求的基础源自随机森林理论的核心，并在经验研究中取得了巨大成功。在本文中，我们贡献了支持和限定这些经验发现的理论结果；即，我们证明了在极其弱的假设下，Lasso剪枝森林相对于未剪枝森林的渐近优势，以及根据主要方法剪枝的回归森林的高概率有限样本泛化界限，然后通过模拟验证这些界限。接着，我们在19个不同的数据集（16个合成数据，3个真实数据）上测试了剪枝回归森林与未剪枝森林的准确性。我们发现，在绝大多数测试场景中，至少有一种森林剪枝方法能够在期望上提供与原始完整森林相同或更好的准确性，而仅使用了少量的树木。我们展示了在某些情况下，森林规模的减少是如此显著，以至于生成的子森林可以有意义地合并成一棵单树，获得的可解释性在质量上优于原始回归森林，后者仍然是一个黑箱。