spark MLlib决策树

1. 决策树以及它的组合模型是在机器学习中常用的分类和回归方法。决策树结果容易解释，处理分类特征，可拓展到多类。决策树是一个贪婪算法，递归的二分特征空间。决策树预测具有相同的叶子节点的属于同一类标签。每次划分的时候，都从一系列可能的划分中选择最佳的，使得根节点的信息增益最大，argmax(s): IG(D,s)。

IG(D,s)=Impurity(D) - a*Impurity(D1eft) - (1-a)*Impurity(Dright)，

Impurity可以取为信息熵，在概率分布为均匀分布时取得最大值。

2. 连续空间特征分区，对于小的数据集，连续空间的特征分区都是单个值。在某些实现中，会首先对特征值进行排序，已进行更快捷的树计算。当数据量过大时，对全部的数据排序代价较高，这里的实现首先采样取一部分数据排序，排序好的数据形成一个个的区间，称为bin，可以指定maxBins参数设置最大的分区数，默认为100。

3. 离散空间特征分区，对于包含M个可能值的离散空间，可能有2^(M-1)-1个候选解。当2^(M-1)-1大于maxBins时，我们采用二划分时相同的启发术，对M个类别特征按照Impurity进行排序。结果分成M-1个划分。

来源：oschina

链接：https://my.oschina.net/u/1417577/blog/355613

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!