大数据分类与回归树(ClassificationandReg
决策树不仅可以进行分类,也可以进行回归。与线性回归不同,回归树是将空间进行划分,每个空间对应一个统一的预测值。回归树的建立
当面对一个回归问题时,如特征向量为:,对应数据的多个维度,回归问题就是求出来这个特征向量的预测结果。
回归树所做的事情是:将空间X划分为多个不重叠的领域,其中,每一个划分出来的空间对应一个预测结果,即标签值y,标签值是根据该区域内的总样本数平均化得出的,即:
与线性回归类似,需要一个损失函数对回归的效果进行评估,采用平方残差和RSS进行评估:
内层就是将该区域内所有样本的预测值和真实值之差值的平方进行求和;
外层就是遍历所有划分出来的区域。
但是如果真的按照上述计算公式来进行空间划分的话,计算量将会非常惊人。为了对空间划分进行简化,通常使用递归二分法来对空间进行划分。递归二分法
什么是递归二分法?顾名思义,树的每次分裂都以二叉树的形式分裂。当我们初步根据特征及其最佳划分点分裂出了2个空间后,不断从当前位置,继续将该空间的样本再次划分成2份。
不同划分空间,生成回归树
划分方案自顶向下:从所有样本开始,不断从当前位置,把样本切分到2个分支里;贪婪:每一次的划分,只考虑当下划分的最优,不会回头考虑先前的划分。
假如回归树的特征向量是2个维度,若第一次分裂时,通过计算得知,当选取属性X1最佳切分点为t1时,得到的损失函数RSS最小,那么本次分裂则可划分出两片区域R1和R2。
划分出R1和R2两个区域后,继续进行树的第二次分裂,若本次分裂根据特征X2找到最佳切分点t2,则可将上图中原R1中的区域再次进行二分。类似的,原样本空间则可根据每一次属性及切分点的选择,以二分裂的形式每次更新两片空间,直到符合某个停止准则,如我们在前文《大数据:如何用决策树解决分类问题》中提到过的预剪枝中的停止准则。
前文《大数据:如何用决策树解决分类问题》介绍了几种可以用于分类问题的决策树,比如ID3和C4。5等。本文要介绍的CART(ClassificationandRegressionTree)树,既可以用于分类,也可以用于回归。CART分类树
首先我们先说一下CART分类树,ID3和C4。5都是多叉树,而CART是二叉树,内部节点的取值为是或否。除此之外,CART分类树和C4。5的最大区别在于选择分裂点时的计算逻辑,C4。5选择分裂点基于信息增益率,而CART分类树基于基尼指数的增益率。
基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。基尼指数越小,则数据集纯度越高。
基尼系数
其中Ck代表在数据集D中属于标签值为K的数据样本个数。
总体来说,CART分类树是以基尼系数作为选择的标准,但CART每次分类都以2叉树的形式进行分类,需要进行多次的基尼系数差值的运算才能找到最好的分类结果。
对比C4。5,CART的提升主要包括以下方面:C4。5只能分类,CART既可以分类也可以回归;CART使用Gini系数作为度量,减少了大量的对数运算,运算速度较快;C4。5使用信息增益率作为度量,信息增益率的计算需要使用大量对数运算,计算复杂度较高。CART回归树
CART回归树与分类树的建立很相似,不同的地方在于连续值的处理方法及最终预测的方式不同。CART回归树使用平方误差最小化准则构建二叉回归树。一棵回归树对应输入空间X的一个划分以及在划分的单元上的输出值。
对于训练集,和CART分类树唯一不同的在于CART回归树面向的是回归问题,即样本的输出为连续型变量。
单一决策树的学习能力是有限的,所以后来人们开始通过集成学习的方法,将多个弱学习器联合在一起,提升为强学习器。
著名的梯度提升机(GBM:GradientBoostingMachine)中最常见的算法叫做GBDT(GradientBoostingDecisionTree)。GBDT中的弱学习器就是CART回归树,GBDT就是CART回归树的加性模型,因此也被称为GBRT(GradientBoostingRegressionTree)。在之后的文章中,我们再来介绍集成学习的方法。
外地普通人在合肥买房有多难?你说的普通人是多普通,是个人普通还是家庭普通,如果不靠家里,完全靠自己打工攒首付,那么不好意思,对于普通人确实很难,如果家里支持,能支援首付,靠自己还房贷,还是可以努努力的,现在合
2021国家电网公司哪些岗位提拔快?国网进来就想提拨?提拨的快?入职没有几年的历练,工作业绩差,连班组的专责工都做不了,专工,高管,然后是班组长,科室长,进入后后备,差不多都中年了,进入中层助理,副值熬几年,正值干一
为什么有人说老小区的房子不能买?老小区一般是指2000年以前开发建设的住宅小区,这些住宅小区都有以下特点一是岁数大,这样的住宅小区,房龄都在二十年以上,有的高达三四十年。二是缺乏整体规划设计,由于当时对城市规划统
西安现在还能出去吗?能回家吗?坐火车是不是只要绿码和核酸?谢邀,我是漫谈长安,我有靠谱的答案!从昨天最新的疫情防控规定来看,虽然能出西安,但要求比之前严格得多!不仅需要48小时核酸检测报告和行程卡,还要有单位或者街道出具的同意审批及盖章。
九月一号去复读晚吗?孩子!不晚!刚刚好!2021年普通高等学校招生全国统一考试时间是2021年6月7日2021年6月8日。现在距离这个日子还有8个多月,一切都来得及!只是你要做好心理准备,调整好心态,
钢琴要不要考到10级?你考级是为了什么?是为了炫耀还是为了掌握技能?!10级也是业余的!!你只要不练琴,多少级都没有用,你都弹不出来,!钢琴师熟练工种,我没有考级证。我天天练琴,肯定比你有证没有时间练琴
为什么感觉很多去非洲打工的农民工从非洲回来后都不愿意再去了?河南刘大哥在非洲坦桑尼亚打工,每个月的工资3万,做满三年后刘大哥便急匆匆的回国了。邻居问刘大哥还愿不愿意再去非洲打工了?刘大哥摇着头说以后再也不去了。六年前,刘大哥决定跟着好友一起
你见过家族企业被亲戚搞倒闭的吗?一个年产值几个亿,利润几千万的企业,最后银行负债七八亿,老板急得头发全白了,差点跳楼,这都是一干亲戚所造就的丰功伟绩!2014年,我从网络应聘于北方某矿企,成为该矿企一名选矿技术工
自由职业交养老保险每年涨,到底是继续交好,还是存银行好?每一个人都需要一份养老保险,自由职业者缴纳养老保险,当然是越早越好。为什么要重视养老保险?养老问题,随着我国人均预期寿命的越来越长,真的是需要越来越重视了。随着我国实施养老保险制度
辞职回家带孩子社保停了,是应该挂靠公司,还是自己灵活购买?哪个更好?感谢邀请,感谢楼主的提问。楼主您好,如果说辞职回家带孩子社保停了,那么也就是说,在一段时间内不会再继续参加工作这种情况下,肯定是选择灵活就业的形式,来购买自己的社保是比较合适的。因
重点大学研究生到乡村小学当老师,每月工资两千多,是否可惜?先就业,再择业吧!疫情时代,就业很难。你看看今年的公务员考试和招教考试吧!人头攒动,竞争激烈。博士生,硕士生,本科生,为了进入公务员序列,为了进入事业编制,千军万马过独木桥,不易啊