-
10月16日
-
输入是CART树建立算法得到的原始决策树$T$。
算法过程如下:
具体的,在分类问题中,假设有K个类别,第k个类别的概率为$p_k$, 则基尼系数的表达式为:
$$C_{\alpha}(T) = C(T) + \alpha$$
首先我们看看剪枝的损失函数度量,在剪枝的过程中,对于任意的一刻子树T,其损失函数为:
2. CART分类树算法对于连续特征和离散特征处理的改进对于CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同,C4.5使用的是信息增益比,则CART分类树使用的是基尼系数。
$$Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2) $$
$$Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2$$
我们的算法从根节点开始,用训练集递归的建立CART树。
4)有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。
7)可以交叉验证的剪枝来选择模型,从而提高泛化能力。
特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:
也就是说,CART树的剪枝算法可以概括为两步,第一步是从原始决策树生成各种剪枝效果的决策树,第二部是用交叉验证来检验剪枝后的预测能力,选择泛化预测能力最好的剪枝后的数作为最终的CART树。
6) 如果M不为空,则回到步骤4。否则就已经得到了所有的可选最优子树集合$\omega$.
6)相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释
在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题, CART算法大部分做了改进。CART算法也就是我们下面的重点了。由于CART算法可以做回归,也可以做分类,我们分别加以介绍,先从CART分类树算法开始,重点比较和C4.5算法的不同点。接着介绍CART回归树算法,重点介绍和CART分类树的不同点。然后我们讨论CART树的建树算法和剪枝算法,最后总结决策树算法的优缺点。
2) 计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
当$\alpha = 0$时,即没有正则化,原始的生成的CART树即为最优子树。当$\alpha = \infty$时,即正则化强度达到最大,此时由原始的生成的CART树的根节点组成的单节点树为最优子树。当然,这是两种极端情况。一般来说,$\alpha$越大,则剪枝剪的越厉害,生成的最优子树相比原生决策树就越偏小。对于固定的$\alpha$,一定存在使损失函数$C_{\alpha}(T)$最小的唯一子树。
对于决策树建立后做预测的方式,上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
2)如果样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。
以上就是决策树的全部内容了,里面有很多我个人思考的逻辑在,希望能对大家有所帮助,有错误的话请指正。
7. 决策树算法小结终于到了最后的总结阶段了,这里我们不再纠结于ID3, C4.5和 CART,我们来看看决策树算法作为一个大类别的分类回归算法的优缺点。这部分总结于scikit-learn的英文文档。
3. CART分类树建立算法的具体流程上面介绍了CART算法的一些和C4.5不同之处,下面我们看看CART分类树建立算法的具体流程,之所以加上了建立,是因为CART树算法还有独立的剪枝算法这一块,这块我们在第5节讲。
对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。
4. CART回归树建立算法CART回归树和CART分类树的建立算法大部分是类似的,所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方。
2)从叶子节点开始自下而上计算各内部节点t的训练误差损失函数$C_{\alpha}(T_t)$(回归树为均方差,分类树为基尼系数), 叶子节点数$|T_t|$,以及正则化阈值$\alpha= min\{\frac{C(T)-C(T_t)}{|T_t|-1}, \alpha_{min}\}$, 更新$\alpha_{min}= \alpha$
由于决策时算法很容易对训练集过拟合,而导致泛化能力差,为了解决这个问题,我们需要对CART树进行剪枝,即类似于线性回归的正则化,来增加决策树的泛化能力。但是,有很多的剪枝方法,我们应该这么选择呢?CART采用的办法是后剪枝法,即先生成决策树,然后产生所有可能的剪枝后的CART树,然后使用交叉验证来检验各种剪枝的效果,选择泛化能力最好的剪枝策略。
回忆下ID3或者C4.5,如果某个特征A被选取建立决策树节点,如果它有A1,A2,A3三种类别,我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同,他采用的是不停的二分,还是这个例子,CART分类树会考虑把A分成$\{A1\}和\{A2,A3\}$, $\{A2\}和\{A1,A3\}$, $\{A3\}和\{A1,A2\}$三种情况,找到基尼系数最小的组合,比如$\{A2\}和\{A1,A3\}$,然后建立二叉树节点,一个节点是A2对应的样本,另一个节点是{A1,A3}对应的节点。同时,由于这次没有把特征A的取值完全分开,后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同,在ID3或者C4.5的一棵子树中,离散特征只会参与一次节点的建立。
1)初始化$\alpha_{min}= \infty$, 最优子树集合$\omega=\{T\}$。
算法输入是训练集D,基尼系数的阈值,样本个数阈值。
怀旧传奇页游地址:玩怀旧传奇页游就看这里