LLM2D
流式和海量并行模型中的决策树分裂发现
Finding Decision Tree Splits in Streaming and Massively Parallel Models
作者: Huy Pham, Hoang Ta, Hoa T. Vu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2403.19867v3

摘要

本文提出了用于决策树学习中计算最优分割的数据流算法。具体来说,给定一个包含观测值 $x_i$ 及其标签 $y_i$ 的数据流,目标是找到最优分割点 $j$,将数据分成两个集合,使均方误差(回归)或误分类率和基尼不纯度(分类)最小化。我们提供了几种快速流式算法,这些算法使用亚线性空间和少量遍历来解决这些问题。这些算法还可以扩展到海量并行计算模型。我们的工作虽然不能直接比较,但补充了 Domingos-Hulten(KDD 2000)和 Hulten-Spencer-Domingos(KDD 2001)的开创性工作。