21.决策树(ID3/C4.5/CART)
总览 算法 功能 树结构 特征选择 连续值处理 缺失值处理 剪枝 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 C4.5 分类 多叉树 信息增益比 支持 支持 支持 CART 分类/回归 二叉树 基尼系数,均方差 支持 支持 支持 论文链接: ID3: https://link.springer.com/content/pdf/10.1007%2FBF00116251.pdf C4.5: https://link.springer.com/content/pdf/10.1007%2FBF00993309.pdf sklearn库: https://www.studyai.cn/modules/tree.html 每个样本的输出概率prob:对于一个叶子节点,该叶子节点预测类别对应的训练样本数占该叶子节点所有训练样本数的比例。 决策树可视化: https://www.cnblogs.com/pinard/p/6056319.html 1.ID3(分类) 信息熵: 随机变量不确定性的度量 $$H(D) = -\sum\limits_{k=1}^{K}\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$$ 条件信息熵:在特征A给定的条件下对数据集D分类的不确定性 $$H(D|A) = -\sum\limits_{i=1}^{n}\frac{|D