决策树的几何理解
决策树的几何理解 一、决策树的实质是对空间的分割 对于一个多维数据,可以将它的每一个属性看成一个维度。如一个二维数据可以看成一个平面,一个三维数据可以看成一个立方体。各属性的取值表示标签的空间位置。那么决策树的每一次测试可以看成对某一维空间的一次分割。 1、树的深度则指的是取多少个维度进行分割,显然树的深度不能超过属性个数,因为属性个数意味着维度,你不允许对一个三维物体从第四维开刀。 2、树的分支个数,指的是你对一个维度“切了几刀”(更精确的是,树的分支个数减一是你的“刀数”。 因为一刀分两段,两刀分三段。。 3、树的叶子节点个数本质是你把空间分割成了几份。 4、剪枝意味着对分割空间的合并。 剪枝的意义: 从上文我们知道决策树的每一次对空间的分割都是“贯穿”的,可以理解成“一刀两段”。而“剪枝”则又将被分割的空间进行局部的“缝补”。这种“缝补”不是任意的,只能“缝补”原本就“相邻”的空间。 举个分类问题的例子,我们现在需要根据已有三维数据把目标分成两类。我们不妨把我们的三维数据想象成一个空间立方体(如一个石块),把任务理解成:通过不断的分割,找到数据里属于“维纳斯的部分”和“不属于维纳斯的部分”(对应任务的“分成两类”) 好了,我们现在成功把一个二分类问题想象成把石块雕刻成维纳斯的过程。 如果没有剪枝过程,决策树最终得到的是“方块状”的空间。显然我们永远不可能得到一个维纳斯的形状